Del Coronavirus a Twitter
Científico de datos de Tecmilenio desarrolla robot para medir la viralización y positividad de las publicaciones en redes sociales
- Esta tecnología permitiría diferenciar noticias confiables y evitar la desinformación en redes sociales.
- Ismael Peregrina, Líder de Inteligencia y científico de datos de Tecmilenio, junto con su compañera Xochitl Morales Científico de datos del Tec de Monterrey, ganó el primer lugar en el COVID-19 Challenge con su investigación.
Con el objetivo de combatir la desinformación en redes sociales durante la emergencia sanitaria, el equipo del ingeniero Ismael Peregrina, Líder de inteligencia y científico de datos Universidad Tecmilenio, logró el primer lugar en el COVID-19 Challenge con el proyecto “Análisis Exploratorio de Tweets con Análisis de Sentimiento para determinar la viralidad de una mención con relación a su sentimiento” el pasado 29 de febrero.
Organizado por el Colegio de Médicos Cirujanos del Estado de Nuevo León, Data Science Monterrey, Hacking Health Monterrey, Women in Data Science, Power and Engineering y Saturday AI Monterrey, el COVID-19 Challenge es un reto que surge debido a la Emergencia Sanitaria para proporcionar información verídica para que las personas tomen las precauciones adecuadas o realicen acciones para ayudar a combatir esta enfermedad.
En este reto, el equipo liderado por el ingeniero Ismael Peregrina, desarrolló un robot para identificar si existe una correlación entre las menciones negativas y el número de retweets relacionados con el coronavirus y, a partir de ahí, desarrollar herramientas para clasificar la veracidad de las noticias y evitar la desinformación.
Utilizando técnicas aplicadas en ciencia de datos el equipo realizó un diccionario de Twitter y analizando 30 mil tweets, crearon una clasificación para medir la positividad de las publicaciones en una escala de decimales que va del +1.0 al -1.0.
Si bien, se descubrió con esta información que no hay una correlación entre la negatividad y la propagación de la información, saltaron a la vista dos situaciones atípicas en donde el mayor número de retweets fueron de publicaciones negativas de cuentas no verificadas, con 9,353 y 8,427 retweets.
Mientras que cuentas verificadas, como la Secretaría de Salud se presentan una cantidad de retweets mucho menor a las antes mencionadas.
“Existen diferentes factores que pueden viralizar un post, desde las palabras utilizadas, hasta el propietario de la cuenta, verificación de la cuenta, momento de la emisión del post respecto a la situación que está ocurriendo. Por ejemplo, el 24 de febrero cuando hicimos la obtención de datos, una de las palabras más comunes era Italia debido a la confirmación de casos. Ahora que tenemos estos factores, contamos con el diccionario y la clasificación de positividad podremos desarrollar una escala de veracidad que divida en noticia, ironía, sarcasmo, chiste, meme, spam, etc”, señaló Ismael Peregrina.
Según el ingeniero Peregrina, el 80% del tiempo del proyecto se consume en la preparación de los datos. Y la inmediatez con la que hay que tratar las cifras en tiempo real para toma de acciones requiere de contar con procesos, recursos, arquitectura para informar a la población lo que en realidad esté ocurriendo.
“Logramos un paso importante con el que podremos facilitar que la población, según el emisor y la clasificación de publicaciones, pueda estar informada con fuentes veraces” Mencionó el ing. Peregrina. “Además, podremos comparar la epidemia actual de COVID-19 con otras epidemias para identificar patrones y analizar fuentes de diferentes canales o medios digitales para identificar y evitar la propagación del pánico”.
Como ganador del primer lugar, esta tecnología será apoyada por TecSalud y el colegio de Médicos de Nuevo León para darle seguimiento al proyecto. Además, el equipo fue patrocinado con apoyos para Amazon Web Services y el uso de una super computadora (CIIA) para seguir desarrollando esta herramienta.