Análise de Textos Históricos utilizando LLMs e Modelagem de Tópicos

Aluno
João Pedro Lukasavicus Silva
Orientador
Mateus Espadoto (IME - USP)

Resumo

Este trabalho investiga a aplicação de Grandes Modelos de Linguagem (LLMs) e técnicas de modelagem de tópicos na análise de textos históricos, com foco nas Etimologias de Isidoro de Sevilha. Enquanto a análise tradicional de tais corpora extensos é manual e custosa, este estudo propõe um pipeline computacional para detectar e organizar automaticamente estruturas temáticas latentes. Foram realizados experimentos utilizando embeddings de sentenças para avaliar a qualidade dos tópicos gerados. Os resultados indicam que uma configuração que prioriza a minimização do tamanho máximo dos clusters, em detrimento da minimização de outliers, produz grupos semanticamente mais coerentes. Além disso, a análise ao nível de sentenças mostrou-se superior no isolamento de assuntos distintos, como gramática e retórica, revelando também temas transversais dispersos pelos livros. Conclui-se que estes métodos computacionais fornecem uma ferramenta robusta de "leitura distante", capaz de replicar a categorização de especialistas e descobrir conexões semânticas na literatura medieval.