Librerías de odio según intensidad y tipos en medios informativos digitales en España
收藏NIAID Data Ecosystem2026-05-02 收录
下载链接:
https://zenodo.org/records/12682646
下载链接
链接失效反馈官方服务:
资源简介:
Librerías de odio según intensidad y tipos en los medios informativos digitales en España, resultado del proyecto "Hatemedia" (proyecto PID2020-114584GB-I00), financiado por MCIN/ AEI /10.13039/501100011033.
A partir de la BD usada para el entrenamiento de los diferentes modelos de algoritmos de clasificación desarrollados en el proyecto Hatemedia, se extranjeron 6.273 lemas simples y compuestos, asociados a los mensajes con expresiones de odio identificados por cada una de las intensidades y tipos de odio estudiados en este proyecto. Las librerías de odio por intensidad y tipo de odio, están conformadas por un total de: 2.706 y 3.567 lemas simples y compuestos, respectivamente.
Por intensidad de odio:
Intensidad 1 – Odio asociado a mensajes incívidos: 1.000 lemas simples y compuestos.
Intensidad 2 – Odio asociado a mensajes mal intensionados o con expresiones abusivas: 364 lemas simples y compuestos.
Intensidad 3 – odio asociado a insultos: 1.110 lemas simples y compuestos.
Intensidad 4 – Odio asociado a amenazas veladas o explícitas: 232 lemas simples y compuestos.
Por tipo de odio:
Odio general: 1.001 lemas simples y compuestos.
Odio misogino: 505 lemas simples y compuestos.
Odio politico: 1.235 lemas simples y compuestos.
Odio sexual: 160 lemas simples y compuestos.
Odio xenófobo: 666 lemas simples y compuestos.
Una vez recabado estos lemas, se llevó a cabo el siguiente proceso:
ETIQUETADO DE EXPRESIONES Y EXTRACCIÓN DE LEMAS. Del total de mensajes identificados se eliminaron stop-words, se identificaron datos anómalos (que no pertenecían a un idioma conocido o eran diminutivos de éste), separándolos posteriormente en función de su intensidad y su tipo de odio. A partir de esta separación, se identificaron tanto los lemas simples como compuestos de forma independiente para cada intensidad y tipo de odio.
IDENTIFICACIÓN DE DUPLICADOS: En la primera fase se realizaron dos listados, el primero de lemas simples y el segundo de lemas compuestos. El primer paso fue filtrar estas dos listas para identificar lemas repetidos, obteniendo estas dos bibliotecas donde cada lema aparece una sola vez.
INTEGRACIÓN BBDD: A continuación, en la tercera fase, se procedió a unir ambas bibliotecas para construir una biblioteca final que integrara todos los lemas, tanto simples como compuestos. Finalmente, se realizó un filtrado final para asegurar que no se repitan los lemas.
Una vez hecho el proceso descrito, se revisó manualmente cada uno de los lemas identificados, con el fin de eliminar aquellos que no aludían a expresiones de odio, por motivo de contexto o significado del término, quedando finalmente la siguiente relación de lemas, según intensidad y tipo de odio. Las librerías de odio por intensidad y tipo de odio, están conformadas por un total de: 1.140 y 1.673 lemas simples y compuestos, respectivamente.
Por intensidad de odio:
Intensidad 1 – Odio asociado a mensajes incívidos: 401 lemas simples y compuestos.
Intensidad 2 – Odio asociado a mensajes mal intensionados o con expresiones abusivas: 99 lemas simples y compuestos.
Intensidad 3 – odio asociado a insultos: 542 lemas simples y compuestos.
Intensidad 4 – Odio asociado a amenazas veladas o explícitas: 98 lemas simples y compuestos.
Por tipo de odio:
Odio general: 463 lemas simples y compuestos.
Odio misogino: 239 lemas simples y compuestos.
Odio politico: 579 lemas simples y compuestos.
Odio sexual: 74 lemas simples y compuestos.
Odio xenófobo: 319 lemas simples y compuestos.
创建时间:
2024-07-07



