Analítica de datos del rendimiento académico anual para la toma de decisiones en la carrera de Arquitectura

Quispe Ticona, Edson Marcelo

Analítica de datos del rendimiento académico anual para la toma de decisiones en la carrera de Arquitectura

Date

2024

Authors

Quispe Ticona, Edson Marcelo

Publisher

Facultad de Ciencias Puras y Naturales

Abstract

La ciencia de datos es una disciplina que se ocupa de la extracción de conocimiento a partir de los datos. En el ámbito educativo, la ciencia de datos puede utilizarse para mejorar la calidad de la enseñanza y el aprendizaje. Esta tesis se centra en la aplicación de la ciencia de datos para analizar el rendimiento académico anual de los estudiantes de la Carrera de Arquitectura de la Universidad Mayor de San Andrés de Bolivia. El objetivo del estudio es identificar los factores que influyen en el rendimiento académico de los estudiantes para que estos factores puedan ser tomados en cuenta en la toma de decisiones educativas. Para realizar el estudio, se utilizó la metodología CRISP-DM, que es un marco de trabajo para el desarrollo de proyectos de minería de datos y ciencia de datos. En primer lugar, se recolectaron los datos de los estudiantes que incluyen datos personales, socioeconómicos, académicos, datos respecto a la autopercepción del estudiante y factores subjetivos. En segundo lugar, se preprocesaron los datos para eliminar valores atípicos y completar los datos faltantes. En tercer lugar, se seleccionaron las variables que podrían influir en el rendimiento académico. En cuarto lugar, se elaboraron tres modelos de regresión: regresión lineal, árboles de decisión de regresión y random forest para regresión. En quinto lugar, se evaluó el rendimiento de los modelos. Los resultados del estudio mostraron que la técnica de random forest para regresión fue la que mejor predijo el rendimiento académico de los estudiantes, pero con un bajo coeficiente de determinación, por lo que se optó en el uso de modelos de clasificación. Partiendo nuevamente desde la fase de transformación de datos, se volvió a seleccionar las variables para los modelos de clasificación. Para el modelado se eligieron los siguientes: regresión logística, arboles de decisión, random forest, xgboost. y ligthgbm. Los modelos de clasificación que obtuvieron mejores resultados en la predicción del rendimiento académico fueron el ligthgbm y xgboost, comparado con los otros, con relación a la precisión de predicción como en la validación cruzada y mejor capacidad para distinguir entre clases.