Con análisis de datos identifican rasgos para mejorar la educación en Norte de Santander
Emilcy Juliana Hernández Leal, doctora en Ingeniería – Industria y Organizaciones de la Universidad Nacional de Colombia (UNAL) Sede Manizales, aplicó técnicas avanzadas de minería de datos –un área poco explorada en las instituciones públicas de educación básica y media en Colombia– para identificar los factores que más influyen en el desempeño académico de los estudiantes y ofrecer soluciones efectivas para mejorar la calidad educativa en la región.
Bajo la dirección del profesor Néstor Darío Duque, del Departamento de Informática y Computación, la investigadora analizó las bases de datos utilizadas que se encuentran el Sistema de Matrículas (Simat), los reportes de calificaciones y las pruebas Saber 11 de 2 instituciones rurales y 2 urbanas.
Los datos demográficos mostraron que el 94,86 % de los estudiantes provienen de los estratos 1 y 2 (de bajos recursos), mientras que solo el 5,14 % pertenecen a estratos más altos en esta región.
Uno de los resultados más reveladores del estudio es que, aunque la reprobación es más alta entre los estudiantes de estratos bajos, el comportamiento de reprobación es similar en todos los niveles socioeconómicos. Esto indica que el estrato no es el único factor determinante del rendimiento escolar, sino que otros factores, como la zona geográfica, la jornada escolar y el desempeño académico del año anterior, también juegan un rol significativo.
En términos de género, los estudiantes hombres tienen una mayor tasa de reprobación (11,40 %) que las mujeres (7,32 %). Además, los estudiantes de sexto grado, particularmente los hombres, tienen una mayor tendencia a reprobar. Este hallazgo es crucial, ya que este grado marca la transición de la primaria a la secundaria, un momento crítico en la vida escolar de los jóvenes.
En casi todos los grados y para ambos géneros, el bajo rendimiento se concentra principalmente en las materias de Matemáticas y Lenguaje. Los estudiantes que tienen notas bajas en esas 2 asignaturas tienden a reprobar el año.
Para los estudiantes de primaria, la disciplina de Lenguaje es la que más contribuye a determinar su desempeño académico, al igual que en secundaria, donde en algunos casos Matemáticas es la más importante. En el caso de la educación media, las que más pesan son Matemática y Física, mientras que Ciencias Naturales es la más importante.
Aunque este tipo de datos y análisis permiten tomar decisiones adecuadas para mejorar la educación en todos los niveles, la investigadora identificó varios problemas en el sistema educativo de la región. Por ejemplo, la fragmentación y dificultad de procesamiento de datos en colegios públicos, a menudo almacenados en formatos inadecuados para análisis, como archivos PDF.
“Mientras que las universidades suelen tener un manejo más organizado de la información, en los colegios públicos los datos son a menudo fragmentados y difíciles de procesar”, explicó la investigadora. Este es uno de los principales desafíos encontrados, ya que fue necesario extraer, validar y preprocesar los datos antes de aplicar cualquier técnica de análisis.
A pesar de los esfuerzos por incluir más colegios, la falta de acceso directo a los datos debido a la dependencia de operadores privados dificultó una participación más amplia.
“Muchas instituciones educativas dependen de sistemas de información manejados por operadores privados que no permiten un acceso ágil y centralizado a los datos”, explicó la investigadora. Este problema se presenta sobre todo en los niveles de educación básica y media, afectando la posibilidad de realizar análisis precisos y en tiempo real.
Para analizar los datos y encontrar los patrones más importantes, el equipo de investigación usó técnicas de aprendizaje automático como la búsqueda en cuadrícula y los árboles de decisión: la primera prueba diferentes configuraciones de modelos para encontrar la mejor manera de hacer predicciones, y la segunda técnica resultó ser el modelo más efectivo para predecir el rendimiento de los estudiantes, utilizando el criterio Gini para organizar los datos en grupos similares. La profundidad del árbol se limitó a 10 niveles para evitar que el modelo se ajustara demasiado a los datos y para que se pudiera generalizar mejor.
El proyecto ha demostrado que la analítica de datos puede ser clave para mejorar la educación en Colombia, especialmente en las instituciones públicas, al identificar a los estudiantes en mayor riesgo de abandono escolar o bajo rendimiento. A pesar de los desafíos, como la falta de estandarización en los sistemas de información y la dependencia de operadores privados, la investigación ha sentado bases sólidas para integrar el uso de datos en la educación. Los hallazgos permitirán diseñar políticas educativas más inclusivas y efectivas, y la investigadora espera que el modelo se replique en otras regiones, con el potencial de transformar la gestión de datos educativos en el país.
Como resultado de la investigación, apoyada por el Ministerio de Ciencia, Tecnología e Innovación y la Gobernación de Norte de Santander, se creó una página web que facilita el análisis de grandes bases de datos. Esta plataforma está diseñada para que tanto expertos como aprendices puedan utilizarla, garantizando resultados confiables. La página web está disponible para el público en general: http://2de-m.emilcyjuliana.com/