Escudo de la República de Colombia Escudo de la República de Colombia
/Minería de texto, herramienta para visibilizar casos de feminicidio en el país
Política y Sociedad

Minería de texto, herramienta para visibilizar casos de feminicidio en el país

    Según el Reporte Dinámico de Feminicidios Colombia, en 2023 se registraron 525 feminicidios - un promedio de 44 casos por mes-. Para hacer una visibilización eficaz de esta problemática, se debe hacer una caracterización, lo que exige un meticuloso proceso de extracción de información. Aprovechando las ventajas de la minería de texto, rama de la inteligencia artificial que permite extraer información de grandes conjuntos de datos de texto, sería posible identificar y categorizar constantes en los casos de violencia feminicida para conocerlos mejor

    Si bien el de los feminicidios es un tema cuya sensibilidad e importancia trasciende las cifras, el método diseñado por Daniel García Alzate, magíster en Ingeniería – Analítica de la Universidad Nacional de Colombia (UNAL) Sede Medellín, es útil para la identificación de casos, de manera que las autoridades competentes puedan generar estrategias para mitigar la problemática.

    “La visibilización y caracterización son unos de los primeros pasos para entender la problemática, dar cuenta del impacto que está teniendo en la sociedad, hacerla más consciente y crear planes sociales para mitigarlo”, dice.

    Agrega que, en la actualidad, “la minería de textos ha tomado mucho auge debido a que hay mucha información, al punto de que la gente empieza a catalogarla como spam o como basura, y hay organizaciones que no saben qué hacer con tantos datos, que realmente podrían ser de gran utilidad para el crecimiento de las organizaciones”.

    Para el desarrollo de su propuesta, el ingeniero mecánico partió del concepto de feminicidio de Naciones Unidas que lo define como la expresión máxima de violencia contra la mujer, y las estimaciones de la Organización Mundial de la Salud, que indica que una de cada tres mujeres ha sufrido algún tipo de violencia de género y que en el 38 % de los casos esta es generada por las parejas.

    Asimismo, tuvo en cuenta la información del Instituto Nacional de Medicina Legal que a 2014 registró 1.007 mujeres asesinadas y 37.881 sometidas a hechos de violencia.

    En el caso específico de su tesis, la aplicación de la minería de texto comenzó con la búsqueda de información sobre violencias contra la mujer en bases de datos o en fuentes oficiales como la Fiscalía General de la Nación, el Observatorio Colombiano de Feminicidios y en noticias de medios de comunicación nacional en las que se identificaron palabras clave relacionadas con la violencia feminicida.

    La extracción de datos se realizó gracias a una herramienta denominada scraping, que permite “poner a punto” la información, de manera que se puedan emplear técnicas de minería de texto sobre ella.

    De igual manera, se aplicó un método estadístico con el cual modeló un algoritmo para extraer datos de las fuentes de información y registrarla en tablas de Excel con los sitios web de donde se extrajo. Hubo dificultades, dijo, porque para algunos casos no se entregaban detalles de ningún tipo, y lo primero que se debe tener en cuenta, según él, es que las referencias sean certeras y confiables.

    Una vez se hizo el procesamiento de la información se utilizaron varias técnicas que permitieron identificar las palabras más frecuentes con relación a los perpetradores, a las formas de violencia empleadas o a las ciudades donde sucedieron los hechos. A esta técnica se le denomina bolsa de palabras, funcional para tener una idea inicial del comportamiento global de los datos. En esta quedaron palabras como “mujer”, “asesinar”, “hombre”, “barrio”, “pareja”, “matar”, “homicidio”, “víctima” y “autoridad”.

    Después de hacer la exploración inicial, se aplicó el dendrograma, el cuál es una representación gráfica en forma de árbol que indica cómo se van agrupando los casos, para dar una idea antes de usar métodos más elaborados de agrupamientos.

    Con el reconocimiento de palabras se identifican entidades, que comenta, hacen parte de la clasificación con la que, a partir de oraciones gramaticales, se reconocen, por citar algunos ejemplos, las relaciones entre víctimas y victimarios o de tipos de armas con las que se perpetraron los feminicidios.

    Para el caso de la tesis, el análisis arrojó que el 20 % de los agresores fueron parejas sentimentales de las mujeres violentadas y que las armas de fuego se usaron en el 40 % de los casos.

    El paso final es una clusterización. A partir de esta técnica se agrupan los casos de violencia feminicida en los grupos que los representan. De esa manera se facilita el entendimiento del fenómeno: “esto porque es más fácil analizar cuatro grupos con casos homogéneos, que un solo grupo con casos heterogéneos entre sí”.

    Según el magíster, el desarrollo de los modelos de clusterización muestra evidencia interesante de la tendencia en el comportamiento de los casos de violencia feminicida en Colombia. “Los resultados obtenidos con estos modelos pueden ser tomados como base para un estudio de carácter social que permita dar señales más contundentes de qué es lo que sucede y cómo se puede abordar de manera efectiva la situación”.