Escudo de la República de Colombia Escudo de la República de Colombia
/Modelos estadísticos mejorarían precisión del análisis de datos en educación o medicina
Ciencia y Tecnología

Modelos estadísticos mejorarían precisión del análisis de datos en educación o medicina

    La necesidad de tener análisis de datos cada vez más precisos aumenta con el tiempo, ya que se requiere información fiable que sirva para tomar decisiones en distintos ámbitos, por eso los modelos estadísticos que se construyen hoy son cada vez más sofisticados y añaden parámetros que antes no se consideraban. Así lo demuestra una investigación que formuló nuevos modelos y algoritmos que, de manera novedosa, eliminan ciertas restricciones matemáticas que existían y articula variables relacionadas con aspectos sociales, culturales y económicos a la explicación de otros fenómenos.

    El profesor Edilberto Cepeda Cuervo, investigador del Departamento de Estadística de la Universidad Nacional de Colombia (UNAL), quien lleva décadas estudiando este tipo de modelos estadísticos, dio el primer paso en 2001, cuando propuso una serie de modelos de regresión beta bayesiana, desarrollando algoritmos que posibilitaban un análisis de datos más profundo y detallado, y que hacían un barrido por la información de todo lo que ocurría en problemáticas como el desempleo, la pobreza o la incidencia de una enfermedad, y que de hecho se extendieron en diversos campos de la estadística y su aplicaciones.

    Sin embargo, en los últimos 20 años estos modelos aún tenían restricciones teóricas e interpretativas que impedían considerar ciertas variables en el análisis, por lo que en 2023 el profesor Cepeda y un grupo de coinvestigadores mejoraron el modelo de regresión beta bayesiana.

    En este, el comportamiento de la media (promedio de un total de datos) y la varianza (variabilidad de los datos con respecto a la media) de problemáticas como las mencionadas se pueden explicar a partir de la estadística con variables sobre el contexto socioeconómico o el nivel educativo medio de la población.

    “Cuando se habla de un modelo bayesiano se hace referencia a un modelo de probabilidad que no depende solo de los datos sino también de la información que se tiene antes de iniciar la recolección de los datos, adentrándose en la historia que hay sobre el estudio, en el conocimiento de los expertos por estudios anteriores, para integrarlo a la información suministrada por los datos gracias a modelos matemáticos”, asegura el investigador.

    “Por ejemplo en medicina, si habláramos de la filtración de sangre que hace el riñón, en la cual se eliminan desechos y otros líquidos, el modelo se interesa por conocer y entender los estudios existentes y el conocimiento de los nefrólogos para integrarlo matemáticamente con los datos obtenidos de la observación de paciente, y determinar si sus hábitos, su edad o las preexistencias médicas influyen en sus niveles de filtración renal”.

    Para evaluar el algoritmo se usaron bases de datos existentes en la literatura sobre la capacidad lectora de los estudiantes con dislexia en algunos colegios de Australia. Así, se encontró que hay datos como etnia, género y habilidad de aprendizaje que antes no se tenían en cuenta, porque primaban otras como el coeficiente intelectual, pero que con el nuevo modelo resultan cruciales para explicar el fenómeno.

    “Así se ofrece una mejor interpretación de los resultados obtenidos en muchas investigaciones aplicadas que hasta hoy se han venido desarrollando con otro tipo de modelos, y que llevarían a replantear diversos estudios económicos en el país relacionados con los índices de desempleo y de pobreza multidimensional; educativos, como el nivel de competencia comunicativa o de desarrollo del pensamiento matemático, y en medicina, con ejemplos como el de la filtración renal, entre muchos otros”, indica el experto.

    Tales opciones permitirían generar mejores estrategias de prevención y solución, ya que las problemáticas se abordarían desde diversos puntos y perspectivas; sin embargo, para lograrlo se necesita de un mayor interés gubernamental para que los avances científicos en estadística sigan siendo aplicados y traigan beneficios para la sociedad.

    “La necesidad de crear estos nuevos modelos surge de la falta de claridad y precisión sobre la dispersión de los datos, ya que los modelos de inicios del siglo XXI se definían con base en parámetros que no tenían una interpretación clara, y por ende su aplicación no estaba tan definida de manera funcional”, explica el magíster.

    El algoritmo se implementó en el software estadístico R, ampliamente utilizado para análisis estadísticos, y que era el más adecuado para esta investigación, con la cual se espera seguir aportando a la consolidación de datos más fiables, de interpretaciones más certeras, y de toma de decisiones mejor enfocadas a las causas y los orígenes de las problemáticas.

    Los resultados de la investigación se publicaron en la Revista Colombiana de Estadística de la UNAL, y se puede consultar aquí.