Home Território e Memória Decifrar o que ainda não tem nome

Decifrar o que ainda não tem nome

Um dataset para aprendizagem automática dedicado às línguas pré-romanas da Península foi publicado em 2026. É uma ferramenta técnica que abre a possibilidade de compreender vozes que o tempo apagou

by Inês Soares

Um dataset estruturado para aprendizagem automática dedicado às línguas pré-romanas da Península Ibérica foi publicado em março de 2026. É uma ferramenta técnica, mas o que está em jogo é a possibilidade de compreender vozes que a história quase apagou por completo.

As línguas paleohispânicas são aquelas faladas na Península Ibérica antes da chegada dos romanos, no século III a.C. O seu estudo ganhou verdadeiro impulso depois de Manuel Gómez Moreno ter decifrado a escrita ibérica levantina, um dos vários semi-silabários utilizados por esses povos. Ainda assim, nenhuma destas línguas é completamente conhecida até hoje — todas apresentam graus variáveis de deciframento.

O panorama é, na verdade, de uma fragmentação extraordinária. Entre as línguas paleohispânicas contam-se o ibérico, o celtibérico, a língua tartéssica (falada no extremo sudoeste da Península e classificada como língua isolada, sem relação com qualquer família indo-europeia conhecida) e o lusitano, falado na região do atual Portugal a norte da bacia do Tejo, uma língua indo-europeia cuja filiação exata continua em debate. O lusitano é atestado por cerca de seis inscrições e numerosos topónimos e teónimos. A sua relação com o celta, com as línguas itálicas ou com tradições indo-europeias ainda mais antigas permanece em discussão aberta. Algumas línguas são conhecidas apenas através de nomes próprios registados por fontes gregas e romanas.

É neste cenário de lacunas que surge o trabalho de Gonzalo Martínez-Fernández, Jose F. Quesada, Agustín Riscos-Núñez e Francisco José Salguero-Lamillar, da Universidade de Sevilha, publicado em março de 2026 no repositório de preprints arXiv. O objetivo é construir um dataset estruturado que permita aplicar técnicas de aprendizagem automática ao estudo das línguas paleohispânicas. A motivação é clara: a maioria dos estudos existentes foi conduzida de um ponto de vista puramente linguístico, e uma abordagem computacional pode beneficiar significativamente esta área de investigação. O problema é que os recursos disponíveis são limitados e apresentados em formatos inadequados para técnicas como o Machine Learning.

O que os investigadores propõem não é substituir a linguística histórica pela computação. É criar a infraestrutura que permita às duas dialogar. Um dataset bem estruturado é o que torna possível treinar modelos capazes de identificar padrões em inscrições, comparar sequências entre línguas ou sinalizar anomalias que o olho humano pode não detetar numa coleção dispersa de registos epigráficos. É trabalho de base — silencioso, técnico, essencial.

A ligação ao achado de Casas del Turuñuelo (ler aqui) não é forçada: a descoberta de uma tábua de ardósia com um dos mais antigos alfabetos paleohispânicos conhecidos naquele sítio tartéssio é exactamente o tipo de material que este dataset pretende tornar computacionalmente analisável. Cada inscrição recuperada do solo ibérico é um fragmento de uma língua que não deixou falantes. A questão não é apenas decifrar sinais, é perceber o que essas vozes diziam sobre o mundo em que viviam.

O preprint está disponível em acesso aberto em arxiv.org/abs/2604.13070.

You may also like

Leave a Comment

To respond on your own website, enter the URL of your response which should contain a link to this post's permalink URL. Your response will then appear (possibly after moderation) on this page. Want to update or remove your response? Update or delete your post and re-enter your post's URL again. (Find out more about Webmentions.)