Algoritmos vs. Odio – La Tablilla

¿Sabías que es posible identificar posibles propagadores de discursos de odio en determinada red social? Pues sí, se puede. Y, en respuesta, existen grupos de expertos encargados de realizar esa tarea, como primer paso para evitar que el discurso de odio se propague entre los usuarios en línea.

En los últimos años se abrió una nueva línea de investigación muy centrada en los delitos de odio; en específico los que utilizan nuevas metodologías, métodos computacionales y Big Data, aplicados al análisis de las redes sociales.

Para orgullo de la Universidad de Oriente el estudiante Roberto Labadie Tamayo, de la carrera de Ciencias de la Computación, participó en Plagiarism, Authorship and Social Software Misuse (PAN), (Traducido al español: Plagio, Autoría y Uso Indebido del Software Social), en su edición correspondiente al año 2021. PAN se desarrolla en el marco de Conference and Labs of the Evaluation Forum (CLEF), (Traducido al español: Conferencia y Laboratorios del Foro de Evaluación).

El evento de carácter internacional se realiza de manera anual desde el año 2010. Consiste en una conferencia independiente revisada por pares, sobre una amplia gama de cuestiones en los campos de la evaluación del acceso a la información multilingüe y multimodal del acceso a la información, así como un conjunto de laboratorios y talleres, diseñados para probar diferentes aspectos de los sistemas de recuperación de información mono y entre idiomas. En esta edición, la tarea principal del evento, tuvo el objetivo de identificar posibles propagadores de discursos de odio en Twitter.
Según las propias palabras del concursante Roberto Labadie Tamayo:

El PAN es una serie de eventos científicos donde se comparten tareas sobre análisis forenses de textos digitales y estilometría. En estas competiciones los participantes tratan de diseñar algoritmos que sean capaces de determinar de manera automática la edad, género, rasgos personales (por ejemplo, si la persona es extrovertida o no) de un autor, basándose en un conjunto de textos digitales escritos por dicho autor.

Con el crecimiento, en los últimos años, de fenómenos negativos en redes sociales, como lo es la propagación de noticias falsas o la propagación de discursos de odio, se ha despertado un interés por el estudio de métodos que permitan discernir, de manera automática, perfiles de usuarios que sean responsables de este tipo de actos. De cara a esto, en PAN 2021 se ha propuesto la tarea ¨Profiling Hate Speech Spreaders on Twitter¨, en la que dado un conjunto de 200 tweets de un perfil de usuario; el sistema propuesto debe ser capaz de determinar cuando este usuario tiende a esparcir odio, específicamente que sean misóginos y/o xenófobos. Esta tarea se evaluó en dos idiomas, es decir, el modelo debía ser capaz de clasificar perfiles en inglés y español.

Roberto Labadie, desde sus primeros años de estudio, tuvo la oportunidad de vincularse al Centro de Estudios de Reconocimiento de Patrones y Minería de Datos (CERPAMID). Allí trabajó bajo la asesoría del Dr.C. Daniel Castro Castro y el Ms.C. Reynier Ortega Bueno, quienes son coautores del modelo propuesto al concurso.

Precisa Roberto que, desde entonces, surge en él un interés por esta temática:

Al vincularme con el CERPAMID comenzó a interesarme el mundo de la Inteligencia Artificial y el Procesamiento del Lenguaje Natural. Luego cuando culminaba el 2do año, mis asesores me comentaron sobre este tipo de competencias y desde entonces he participado en 4: PAN 2020, EVALITA 2020, SEMEVAL 2021 y PAN 2021 en ese mismo orden. Para participar en esta edición de PAN continué el desarrollo de métodos de Aprendizaje Profundo (Deep Learning) y nuestra propuesta estuvo dirigida a un análisis modular del problema, en la que el sistema primero analiza de manera individual los tweets y luego realiza una agregación de la información extraída de estos, para modelar el perfil de usuario y finalmente emitir una predicción. Es un poco más complejo de lo que se escucha, pero de manera general es eso.

Labadie Tamayo, quien pronto será Licenciado en Ciencias de la Computación, pues ya cursa los últimos años de la carrera, obtuvo segundo lugar compartido en la competición. Acerca del reconocimiento nos comentó que:

La empresa alemana SYMANTO 3, patrocinadora del evento, otorga un premio de 300 euros al primer lugar, nosotros quedamos ubicados en el segundo lugar. Pero más allá de obtener el premio, nos satisface mucho que nuestro método haya tenido un desempeño tan bueno y que tengamos la posibilidad de publicar un artículo describiendo nuestro modelo en el marco de CLEF 2021.

Ya que cualquier aporte que podamos realizar a la comunidad del Procesamiento del Lenguaje Natural, es beneficioso para todo el mundo y para nuestro país de manera específica. La temática es muy importante, más cuando es para resolver una tarea como lo es detectar personas que agreden a determinado grupo social en un medio, que se ha convertido en algo cotidiano, como lo son las redes sociales.

El discurso de odio se define, comúnmente, como cualquier comunicación que menosprecia a una persona o un grupo sobre la base de alguna característica como raza, color, etnia, género, orientación sexual, nacionalidad, religión u otras características.

CLEF 2021 tiene varias fases y aún no culmina; el evento en línea será transmitido desde la Universidad “Politécnica” de Bucarest, Rumania, del 21 al 24 de septiembre de 2021. Durante la entrevista Roberto nos ofreció más detalles:

PAN publica la tarea a inicios de febrero, describiendo de que va y el formato que tendrán los datos que el algoritmo propuesto deberá procesar; luego, en el mes de marzo, es liberado un conjunto de datos llamado datos de entrenamiento. Luego de la fase de entrenamiento, en el mes de abril, tienes la oportunidad de hacer dos envíos, con propuestas de modelos, a los cuales se les presentan datos de prueba; el modelo recibe una puntuación que describe la precisión que tiene a la hora de clasificar un perfil como Hate Speech Spreader o no. En este proceso nuestro sistema obtuvo una precisión promedio de 78 %, quedando a un punto del mejor sistema que obtuvo 79 %. Luego de esta fase, ya solo resta la escritura del artículo, el cual tiene fecha de entrega para el día 30 de junio y, finalmente, la conferencia de CLEF es en los días del 21-24 de septiembre, a desarrollarse en línea, a causa de la COVID-19 desde la Universidad Politécnica de Bucarest, Rumania.

De manera general, estas tareas que implican la detección de odio en textos, son muy complejas para sistemas automatizados, ya que el discurso de odio trae implícitos recursos comunicativos del lenguaje como lo son la ironía y el sarcasmo. A su vez, cuando son orientados a un grupo social, se incluyen factores psico-sociales. Todos esos elementos, incluso para los propios humanos, son a veces complicados de entender.

Entonces, hacer que una computadora “entienda” que estás transmitiendo odio, aún cuando el odio puede ser transmitido sin usar un lenguaje ofensivo y puede variar su significado según el contexto, es todo un reto. Por eso, el trabajo realizado por los competidores en este evento, tiene un mérito encomiable y aporta mucho para la futura trayectoria laboral de Roberto Labadie Tamayo, quien reconoce que:

Los principales aportes que trae este tipo de concurso, en mi opinión, son algo crucial para la actividad científica, y son el conocimiento y el espíritu investigador. El hecho de querer proponer un sistema que funcione y lo haga bien, y la pasión que te inyecta este mundo de la inteligencia artificial una vez que lo conoces, hace que te vuelvas un investigador incansable por los nuevos métodos del estado del arte, que mejoran día a día, y que hagas volar tu imaginación para crear una modelación del problema, que sea novedosa y que tenga una buena funcionalidad.

Además, una vez realizada la conferencia, puedes estudiar los métodos propuestos por otros participantes y tener nuevos enfoques de la tarea. El perfilado de autores, dentro del procesamiento del lenguaje natural, es una de las áreas que más me llama la atención, y que se ha vuelto más desafiante al introducir la detección de este tipo de rasgos psicosociales, de los autores o específicamente usuarios de redes sociales.

Sé el primero en comentar

Dejar una contestacion