SinOdio-LATAM-Regional-HateSpeech
收藏Hugging Face2025-10-31 更新2025-11-01 收录
下载链接:
https://huggingface.co/datasets/antonn-dromundo/SinOdio-LATAM-Regional-HateSpeech
下载链接
链接失效反馈官方服务:
资源简介:
这是一个专为检测拉丁美洲西班牙语中的仇恨言论而设计的独特数据集。它包含了10,000对示例,每对都包括显性和隐蔽的仇恨言论。数据集覆盖了5个拉丁美洲国家、5种仇恨言论类别和9,371种独特子类型。数据集被分为训练集、验证集和测试集,确保类别和国家的平衡。它还包括了地区的俚语和表达,使其真实和多样化。README强调以负责任和道德的方式使用数据集的重要性,并提供关于允许和禁止使用的指南。它是在CC BY-NC-SA 4.0许可下发布的,允许非商业共享和改编。
This is a unique dataset specifically designed for hate speech detection in Latin American Spanish. It contains 10,000 example pairs, each consisting of explicit and implicit hate speech. The dataset covers 5 Latin American countries, 5 hate speech categories, and 9,371 unique subtypes. It is split into training, validation and test sets, ensuring balanced distribution across categories and countries. It also includes regional slang and expressions, making it authentic and diverse. The accompanying README emphasizes the importance of using the dataset responsibly and ethically, and provides guidelines for permitted and prohibited uses. It is released under the CC BY-NC-SA 4.0 license, allowing non-commercial sharing and adaptation.
创建时间:
2025-10-28
原始信息汇总
SinOdio-LATAM-Regional-HateSpeech 数据集概述
数据集基本信息
- 数据集名称: SinOdio-LATAM-Regional-HateSpeech
- 语言: 西班牙语
- 样本数量: 10,000对示例(总计20,000个文本)
- 任务: 仇恨言论检测
- 许可证: CC BY-NC-SA 4.0
数据集特色
- 专注于检测拉丁美洲西班牙语中的显性和隐性仇恨言论
- 每个示例包含同一偏见的两个版本:显性仇恨言论和隐性仇恨言论
- 覆盖5个拉丁美洲国家:墨西哥、哥伦比亚、阿根廷、智利、秘鲁
- 包含5种仇恨类别:仇外心理、恐同心理、种族主义、阶级歧视、宗教不容忍
数据分布
按国家分布
| 国家 | 示例数量 | 百分比 |
|---|---|---|
| 墨西哥 | 2,000 | 20% |
| 哥伦比亚 | 2,000 | 20% |
| 阿根廷 | 2,000 | 20% |
| 智利 | 2,000 | 20% |
| 秘鲁 | 2,000 | 20% |
按仇恨类别分布
| 类别 | 示例数量 | 百分比 | 主要目标群体 |
|---|---|---|---|
| 仇外心理 | 2,000 | 20% | 委内瑞拉人、中美洲人、玻利维亚人、海地人 |
| 恐同心理 | 2,000 | 20% | 跨性别/非二元性别者、LGBTQ+群体 |
| 种族主义 | 2,000 | 20% | 土著居民、马普切人、非裔哥伦比亚人 |
| 阶级歧视 | 2,000 | 20% | 贫困阶层 |
| 宗教不容忍 | 2,000 | 20% | 非天主教徒 |
数据集结构
主要列
id: 唯一标识符pais: 原产国escenario: 社会背景grupo_discriminado: 仇恨目标群体categoria_odio: 主要仇恨类别subtipo: 具体子类别texto_original: 显性仇恨言论texto_disimulado: 隐性仇恨言论etiqueta_final: 标签
数据划分
| 划分 | 示例数量 | 百分比 | 用途 |
|---|---|---|---|
| 训练集 | 7,000 | 70% | 模型训练 |
| 验证集 | 1,500 | 15% | 超参数调整 |
| 测试集 | 1,500 | 15% | 最终评估 |
关键统计信息
- 独特子类型: 9,371个(93.7%的数据集)
- 文本长度统计:
- 显性文本:平均41个字符,中位数39,范围19-79
- 隐性文本:平均45个字符,中位数47,范围20-92
- 地区俚语: 每个国家包含25+个地区表达方式
引用信息
bibtex @dataset{dromundo2024sinodio_latam, title={SinOdio-LATAM-Regional-HateSpeech: Hate Speech Detection Dataset for Latin American Spanish}, author={Dromundo, Antonio}, year={2025}, publisher={Hugging Face}, howpublished={url{https://huggingface.co/datasets/antonn-dromundo/SinOdio-LATAM-Regional-HateSpeech}}, note={10,000 paired examples of explicit and subtle hate speech across 5 Latin American countries} }
使用限制
- 允许用途: 学术研究、内容审核系统开发、模型训练、教育目的
- 禁止用途: 生成新仇恨言论、训练模型创建攻击性内容、传播仇恨言论
搜集汇总
数据集介绍

构建方式
在仇恨言论检测研究领域,SinOdio-LATAM-Regional-HateSpeech数据集的构建采用了精心设计的平行语料架构。该数据集通过系统化采集拉丁美洲五个主要国家(墨西哥、哥伦比亚、阿根廷、智利、秘鲁)的社交媒体内容,构建了包含10,000对平行文本的语料库。每对文本均由同一偏见主题的显性仇恨言论和伪装成合理关切的隐性仇恨言论组成,确保了数据对在语义层面的严格对应。构建过程中特别注重语言真实性,收录了各国特有的俚语和地域表达,并通过分层抽样确保了五大仇恨类别和五个国家分布的完美平衡。
特点
该数据集最显著的特征在于其独特的双重表达结构,每个偏见主题都包含显性和隐性两种表达形式。这种设计使得模型能够学习识别那些披着理性外衣的隐蔽仇恨言论,这类言论往往比直接攻击更具危害性。数据集覆盖了仇外、恐同、种族主义、阶级歧视和宗教不容忍五大仇恨类别,并包含了9,371种独特子类型,确保了语言表达的丰富多样性。特别值得注意的是,数据集完整保留了各国特有的语言特征,如墨西哥的“wey”、阿根廷的“boludo”等地域俚语,为研究拉丁美洲西班牙语的仇恨言论提供了真实语言样本。
使用方法
在技术应用层面,该数据集支持多种自然语言处理任务的实现。研究人员可通过Hugging Face平台直接加载数据集,利用其预划分的训练集、验证集和测试集进行模型训练。数据集特别适用于微调西班牙语预训练模型,如BERT的西班牙语变体,以提升对隐性仇恨言论的检测能力。使用时可选择单独处理显性文本或隐性文本,也可将两者结合进行对比学习。评估阶段支持按国家或仇恨类别进行细粒度分析,为研究地域文化差异对仇恨言论表达的影响提供了有力工具。
背景与挑战
背景概述
在数字时代社交媒体内容治理的背景下,SinOdio-LATAM-Regional-HateSpeech数据集由墨西哥研究者Antonio Dromundo于2025年创建,专注于拉丁美洲西班牙语的仇恨言论检测研究。该数据集针对传统方法难以识别的隐蔽性仇恨言论,创新性地构建了包含显性与伪装形式的平行语料,覆盖墨西哥、哥伦比亚等五个国家的区域性表达。其核心价值在于通过对比分析机制,推动自然语言处理模型对表面中立但实质有害的歧视性文本的识别能力,为跨文化社会语言学研究和数字平台内容审核提供了重要基础。
当前挑战
该数据集致力于解决仇恨言论检测领域的两大核心挑战:一是识别经过语言包装的隐蔽性歧视内容,这类文本常以合理关切为伪装,其语义边界模糊性对分类模型提出更高要求;二是在构建过程中需克服拉丁美洲语言变体的复杂性,包括各国特有的俚语体系和地域文化差异,同时需平衡五类仇恨主题与五个国家区域的数据分布,确保9371种细分类型的语义多样性。此外,数据标注过程还需避免主观偏见对仇恨言论判定的影响,保证跨文化语境下标注标准的一致性。
常用场景
经典使用场景
在仇恨言论检测研究领域,SinOdio-LATAM数据集通过呈现显性与隐性仇恨言论的成对实例,为模型训练提供了独特视角。该数据集特别聚焦于识别那些伪装成合理关切的隐性仇恨表达,例如将排外情绪包装为现实考量,这种设计使得模型能够捕捉语言表层之下的歧视意图。研究人员利用该数据集训练分类器时,可同时学习识别直白的攻击性语言与更具迷惑性的委婉表达,从而提升检测系统的综合性能。
解决学术问题
该数据集有效解决了自然语言处理领域对隐性仇恨言论识别不足的学术难题。传统方法主要针对明显攻击性语言,而SinOdio-LATAM通过系统化标注显隐对比样本,为研究语言伪装机制提供了实证基础。其覆盖五个拉美国家的区域语言变体,助力解决跨方言仇恨言论检测的泛化问题,同时为社会学研究提供了分析歧视话语演变规律的数据支撑,推动了多学科交叉研究的发展。
衍生相关工作
基于该数据集衍生的经典研究包括多模态仇恨言论检测框架的构建,其中结合文本与上下文特征提升识别精度。若干工作探索了迁移学习在跨区域仇恨言论检测中的应用,利用该数据集的国别标注训练适应性更强的模型。在伦理计算领域,研究者通过分析数据集中的隐性表达模式,提出了减轻模型偏见的新方法,这些成果显著推动了负责任人工智能的发展进程。
以上内容由遇见数据集搜集并总结生成



