X-MuTeST
收藏arXiv2026-01-07 更新2026-01-08 收录
下载链接:
https://github.com/ziarehman30/X-MuTeST
下载链接
链接失效反馈官方服务:
资源简介:
X-MuTeST是由印度理工学院等机构构建的多语言可解释仇恨语音检测基准数据集,包含印地语、泰卢固语和英语的16,830条社交媒体文本样本。数据集通过HASOC和HOLD-Telugu竞赛获取原始数据,并由专业标注团队进行词级理性标注,平均标注一致率达83%以上。其独特价值在于首次为低资源语言提供人类标注的仇恨语音判断依据,支持模型可解释性研究。该数据集主要用于提升跨文化语境下的仇恨语音检测性能及解释合理性。
X-MuTeST is a multilingual interpretable hate speech detection benchmark dataset constructed by institutions including the Indian Institute of Technology and others. It contains 16,830 social media text samples in Hindi, Telugu and English. The raw data was collected from the HASOC and HOLD-Telugu competitions, and was annotated at the token level by a professional annotation team, with an average inter-annotator agreement (IAA) of over 83%. Its unique value lies in providing the first human-annotated rationales for hate speech detection in low-resource languages, supporting research on model interpretability. This dataset is primarily intended to improve the performance of hate speech detection and the rationality of model explanations in cross-cultural contexts.
提供机构:
印度理工学院印多尔分校; 印度信息技术学院达尔瓦德分校; 亚利桑那州立大学; 印度理工学院曼迪分校
创建时间:
2026-01-07
原始信息汇总
X-MuTeST 数据集概述
数据集基本信息
- 数据集名称:X-MuTeST (eXplainable Multilingual haTe Speech deTection)
- 核心内容:一个用于可解释性仇恨言论检测的多语言基准数据集,包含人工标注的令牌级理由。
- 语言覆盖:英语、印地语和泰卢固语。
- 数据规模:包含超过4.5K条泰卢固语样本、6K条印地语样本和6.3K条英语样本。
- 标注信息:每个样本均由三位母语专家进行标注。
数据集特点与贡献
- 关键贡献:为首批为英语和印度语言(特别是泰卢固语首次,印地语先前工作有限)的仇恨言论检测提供令牌级人工理由的工作之一。
- 框架创新:提出了一个两阶段可解释性框架,结合了基于n-gram的解释性分数和LLM(LLaMA-3.1)咨询解释。
- 评估重点:使用合理性(Token-F1, IOU-F1)和忠实性(Comprehensiveness, Sufficiency)指标评估模型准确性和可解释性。
- 研究意义:弥合了资源不足的印度语言在可解释性方面的差距,并确保跨英语和多语言设置的一致性和泛化性。
数据标注与质量
- 标注任务:标注者标记证明分类(仇恨/冒犯/正常)合理性的特定单词或短语。
- 质量评估:使用科恩卡帕(成对)和弗莱斯卡帕(总体)测量标注者间一致性。迭代细化提高了标注可靠性。
- 一致性分数:
- 泰卢固语:标注者间一致性为82.50, 87.75, 88.25,总体一致性为81.00。
- 印地语:标注者间一致性为86.45, 88.00, 79.20,总体一致性为83.15。
- 英语:标注者间一致性为87.60, 82.00, 89.30,总体一致性为85.10。
数据获取与使用
- 获取方式:数据集严格限于研究目的,受控访问。需通过表单申请(https://forms.gle/L8kQCDEYwFKmkCWv9)。
- 使用限制:仅限非商业学术研究。禁止重新分发、复制或使用数据生成或传播有害内容。
- 伦理警告:数据集包含具有攻击性和仇恨性质的文本,仅用于仇恨言论和内容审核研究。创建者不认可数据中表达的任何观点。所有样本均已匿名化。
致谢与引用
- 基础数据集:本工作基于以下共享任务和数据集:
- HASOC 2020:泰米尔语、马拉雅拉姆语、印地语、英语和德语的仇恨言论与冒犯性语言识别。
- HASOC 2021:英语和印度-雅利安语言的仇恨言论与冒犯性内容识别。
- HOLD-Telugu 2024:泰卢固语混合文本中的仇恨和冒犯性语言检测(DravidianLangTech 2024)。
- 引用信息:相关论文的引用格式已在README中提供。
搜集汇总
数据集介绍

构建方式
在社交媒体内容日益多元的背景下,X-MuTeST数据集的构建遵循了严谨的多语言标注流程。该数据集整合了来自HASOC竞赛的印地语和英语样本,以及来自HOLD任务的泰卢固语样本,并通过严格的筛选确保了数据的代表性。构建过程中,研究团队聘请了精通各语言的母语专家,采用迭代式标注方法,对每个样本进行三位标注员的独立标注,并通过共识讨论解决分歧,最终获得了高一致性的词级理性标注。数据集总计包含超过一万六千条样本,为低资源语言的仇恨言论检测提供了宝贵的标注资源。
特点
X-MuTeST数据集的核心特点在于其首次为印地语和泰卢固语等低资源语言提供了大规模的人类标注理性数据,弥补了该领域资源的空白。数据集不仅包含二元分类标签,还细致标注了每个词对分类决策的贡献,即词级理性,这为模型的可解释性研究提供了直接支持。此外,数据集涵盖了社交媒体中真实的语言使用场景,包括文化特定的表达方式,使得基于该数据训练的模型能够更好地理解社会文化语境下的仇恨言论。
使用方法
该数据集主要用于训练和评估可解释的仇恨言论检测模型。研究者可以将其应用于两阶段训练框架:第一阶段利用人类标注的理性引导模型注意力,使其与人工判断对齐;第二阶段则采用数据集论文提出的n-元语法可解释性方法生成注意力目标,以平衡人类先验与模型自发现。最终,通过结合大型语言模型的语义推理与模型自身的注意力机制,生成综合性的解释。评估时,可使用分类准确率、F1分数等性能指标,以及合理性(如Token-F1)和忠实性(如综合性与充分性)等可解释性指标进行全面衡量。
背景与挑战
背景概述
随着社交媒体在全球范围内的普及,仇恨言论的检测已成为自然语言处理领域的重要研究课题。X-MuTeST数据集由印度理工学院印多尔分校等机构的研究团队于2026年提出,旨在构建一个多语言可解释仇恨言论检测基准。该数据集涵盖了印地语、泰卢固语和英语三种语言,共包含超过一万六千条样本,每条样本均附有人工标注的词汇级理由注释,以阐明其被归类为仇恨或非仇恨内容的原因。X-MuTeST的核心研究问题在于解决低资源语言中仇恨言论检测模型的可解释性不足问题,通过结合大型语言模型的高层语义推理与传统注意力增强技术,提升模型分类性能与解释能力。该数据集的发布为多语言可解释人工智能研究提供了宝贵资源,推动了跨语言仇恨言论检测领域的发展。
当前挑战
X-MuTeST数据集所针对的领域挑战在于多语言仇恨言论检测中的可解释性问题。现有模型在低资源语言中往往难以生成与人类逻辑一致的解释,尤其是在涉及文化和社会背景的语境下,机器提供的理由常与人工标注存在偏差。构建过程中的挑战主要包括多语言数据收集与标注的复杂性。数据源自不同的公开竞赛与任务,需要统一处理格式与标注标准;而词汇级理由注释要求标注者具备深厚的语言文化知识,并通过迭代标注流程来提升注释者间的一致性,以确保数据质量与可靠性。
常用场景
经典使用场景
在社交媒体内容审核领域,X-MuTeST数据集为多语言可解释仇恨言论检测提供了基准评估平台。该数据集包含印地语、泰卢固语和英语的文本样本,并附有词级人工标注的理性依据,使得研究者能够训练和验证模型在识别仇恨内容时,不仅关注分类准确性,更强调决策过程的透明性。经典应用场景涉及利用该数据集的双阶段训练框架,结合大型语言模型的高层语义推理与传统注意力增强技术,以生成与人类标注对齐的解释,从而提升模型在低资源语言环境下的可信度与可解释性。
解决学术问题
X-MuTeST数据集主要解决了多语言仇恨言论检测中可解释性资源匮乏的核心学术问题。针对印地语、泰卢固语等低资源语言缺乏人工标注理性依据的现状,该数据集提供了大规模词级标注,使研究者能够量化模型解释与人类逻辑之间的对齐程度。通过引入合理性指标如Token-F1和IOU-F1,以及忠实性指标如综合性与充分性,该数据集推动了可解释人工智能在仇恨言论检测领域的标准化评估,弥合了机器学习模型决策过程与人类理解之间的语义鸿沟。
衍生相关工作
X-MuTeST数据集衍生的经典工作主要包括可解释仇恨言论检测框架的优化与扩展。例如,基于该数据集提出的LLM咨询解释框架,融合了n-gram贡献度分析与大型语言模型的语义推理,为后续研究如HateXplain和HateBRXplain等数据集的评估提供了新方法。相关研究进一步探索了注意力机制与人类理性标注的协同训练策略,推动了多语言可解释性模型在低资源语言上的性能提升,并为跨文化仇恨言论检测的标准化评估体系奠定了基础。
以上内容由遇见数据集搜集并总结生成



