Um dataset estruturado para aprendizagem automática dedicado às línguas pré-romanas da Península Ibérica foi publicado em março de 2026. É uma ferramenta técnica, mas o que está em jogo é a possibilidade de compreender vozes que a história quase apagou por completo.
As línguas paleohispânicas são aquelas faladas na Península Ibérica antes da chegada dos romanos, no século III a.C. O seu estudo ganhou verdadeiro impulso depois de Manuel Gómez Moreno ter decifrado a escrita ibérica levantina, um dos vários semi-silabários utilizados por esses povos. Ainda assim, nenhuma destas línguas é completamente conhecida até hoje — todas apresentam graus variáveis de deciframento.
O panorama é, na verdade, de uma fragmentação extraordinária. Entre as línguas paleohispânicas contam-se o ibérico, o celtibérico, a língua tartéssica (falada no extremo sudoeste da Península e classificada como língua isolada, sem relação com qualquer família indo-europeia conhecida) e o lusitano, falado na região do atual Portugal a norte da bacia do Tejo, uma língua indo-europeia cuja filiação exata continua em debate. O lusitano é atestado por cerca de seis inscrições e numerosos topónimos e teónimos. A sua relação com o celta, com as línguas itálicas ou com tradições indo-europeias ainda mais antigas permanece em discussão aberta. Algumas línguas são conhecidas apenas através de nomes próprios registados por fontes gregas e romanas.
É neste cenário de lacunas que surge o trabalho de Gonzalo Martínez-Fernández, Jose F. Quesada, Agustín Riscos-Núñez e Francisco José Salguero-Lamillar, da Universidade de Sevilha, publicado em março de 2026 no repositório de preprints arXiv. O objetivo é construir um dataset estruturado que permita aplicar técnicas de aprendizagem automática ao estudo das línguas paleohispânicas. A motivação é clara: a maioria dos estudos existentes foi conduzida de um ponto de vista puramente linguístico, e uma abordagem computacional pode beneficiar significativamente esta área de investigação. O problema é que os recursos disponíveis são limitados e apresentados em formatos inadequados para técnicas como o Machine Learning.
O que os investigadores propõem não é substituir a linguística histórica pela computação. É criar a infraestrutura que permita às duas dialogar. Um dataset bem estruturado é o que torna possível treinar modelos capazes de identificar padrões em inscrições, comparar sequências entre línguas ou sinalizar anomalias que o olho humano pode não detetar numa coleção dispersa de registos epigráficos. É trabalho de base — silencioso, técnico, essencial.
A ligação ao achado de Casas del Turuñuelo (ler aqui) não é forçada: a descoberta de uma tábua de ardósia com um dos mais antigos alfabetos paleohispânicos conhecidos naquele sítio tartéssio é exactamente o tipo de material que este dataset pretende tornar computacionalmente analisável. Cada inscrição recuperada do solo ibérico é um fragmento de uma língua que não deixou falantes. A questão não é apenas decifrar sinais, é perceber o que essas vozes diziam sobre o mundo em que viviam.
O preprint está disponível em acesso aberto em arxiv.org/abs/2604.13070.