Aplicación de técnicas de machine learning y procesamiento de lenguaje natural para la extracción automática de datos bibliográficos en documentos académicos de la Universidad Mayor de San Andrés.

Poma Calle, Oscar MarceloIturralde Aliaga, Rodrigo Orlando2026-03-222026-03-222024https://andeanlibrary.org/handle/123456789/36620La Universidad Mayor de San Andrés (UMSA) está digitalizando sus bibliotecas y creando una biblioteca virtual para almacenar los documentos académicos elaborados por sus estudiantes (proyecto de grado, tesis, etc.). Sin embargo, aún hay miles de estos documentos pendientes de ser indexados y publicados en la biblioteca. El proceso de indexación es manual y requiere mucho tiempo. Este proyecto pretende demostrar que es posible utilizar Natural Language Processing (NLP) y Machine Learning (ML) para automatizar la extracción de datos bibliográficos de documentos y así acelerar el proceso de indexación. El objetivo es entrenar modelos de ML para identificar y extraer información como autor, título, año de publicación, palabras clave, etc. desde estos documentos. En concreto se desarrollaron dos modelos: un modelo de Reconocimiento de Entidades Nombradas (NER) para extraer información desde la carátula de los documentos y un Modelo de Lenguaje Grande (LLM) para extraer palabras clave desde el resumen de los documentos. Palabras clave: Reconocimiento de Entidades Nombradas, Modelo de Lenguaje Grande, Aprendizaje Automático, Procesamiento de Lenguaje Natural, Indexación de Documentos.esMACHINE LEARNINGLENGUAJE NATURALREPOSITORIO DIGITALEXTRACCIÓN DE DATOS BIBLIOGRÁFICOSAplicación de técnicas de machine learning y procesamiento de lenguaje natural para la extracción automática de datos bibliográficos en documentos académicos de la Universidad Mayor de San Andrés.Thesis