Aplicación de técnicas de machine learning y procesamiento de lenguaje natural para la extracción automática de datos bibliográficos en documentos académicos de la Universidad Mayor de San Andrés.

Iturralde Aliaga, Rodrigo Orlando

Aplicación de técnicas de machine learning y procesamiento de lenguaje natural para la extracción automática de datos bibliográficos en documentos académicos de la Universidad Mayor de San Andrés.

Date

2024

Authors

Iturralde Aliaga, Rodrigo Orlando

Publisher

Facultad de Ingenieria

Abstract

La Universidad Mayor de San Andrés (UMSA) está digitalizando sus bibliotecas y creando una biblioteca virtual para almacenar los documentos académicos elaborados por sus estudiantes (proyecto de grado, tesis, etc.). Sin embargo, aún hay miles de estos documentos pendientes de ser indexados y publicados en la biblioteca. El proceso de indexación es manual y requiere mucho tiempo. Este proyecto pretende demostrar que es posible utilizar Natural Language Processing (NLP) y Machine Learning (ML) para automatizar la extracción de datos bibliográficos de documentos y así acelerar el proceso de indexación. El objetivo es entrenar modelos de ML para identificar y extraer información como autor, título, año de publicación, palabras clave, etc. desde estos documentos. En concreto se desarrollaron dos modelos: un modelo de Reconocimiento de Entidades Nombradas (NER) para extraer información desde la carátula de los documentos y un Modelo de Lenguaje Grande (LLM) para extraer palabras clave desde el resumen de los documentos. Palabras clave: Reconocimiento de Entidades Nombradas, Modelo de Lenguaje Grande, Aprendizaje Automático, Procesamiento de Lenguaje Natural, Indexación de Documentos.