VITHSD
收藏Hugging Face2025-06-21 更新2025-06-22 收录
下载链接:
https://huggingface.co/datasets/visolex/VITHSD
下载链接
链接失效反馈官方服务:
资源简介:
VITHSD(越南语目标仇恨言论检测)数据集包含10000条越南语社交媒体评论,针对个人、群体、宗教/信仰、种族/民族、政治五个目标类别进行标注,每个类别按三等级(0=无仇恨,1=冒犯,2=仇恨)标注仇恨程度。数据集分为训练集、验证集和测试集,合并为一个CSV文件,并包含一个表示数据集类型的列。
创建时间:
2025-06-16
搜集汇总
数据集介绍

构建方式
VITHSD数据集聚焦于越南社交媒体中的仇恨言论检测,其构建过程体现了严谨的语料采集与标注流程。研究团队从越南主流社交平台采集了10,000条用户评论,通过专家标注团队对每条评论进行多维度标注,涵盖个体、群体、宗教信仰、种族和政治五个目标类别。采用三级标注体系(0=无仇恨,1=冒犯性,2=仇恨性)确保标注粒度,最终将原始数据划分为训练集、验证集和测试集,并通过统一CSV格式整合,保留原始数据分割信息。
特点
该数据集最显著的特征在于其精细的目标导向标注体系,不仅区分仇恨言论的存在与否,更深入识别仇恨所针对的具体目标类别。数据覆盖越南语社交媒体语境,包含丰富的网络用语和非正式表达,为研究东南亚语言环境下的仇恨言论提供了珍贵资源。每条样本包含原始评论文本和五个目标维度的独立标注,支持多标签分类任务,且标注一致性经过严格检验,确保数据质量可靠。
使用方法
研究人员可通过Hugging Face数据集库直接加载VITHSD,使用filter方法按type字段分离训练、验证和测试集。典型应用场景包括开发多目标仇恨言论检测模型,评估指标推荐采用各目标维度的准确率和宏观F1值。数据加载后可直接用于文本分类模型训练,其中comment字段作为输入特征,五个目标类别字段作为多标签输出。为保持评估一致性,建议遵循原始数据划分,并注意处理越南语特有的语言特征和编码问题。
背景与挑战
背景概述
VITHSD数据集由越南研究人员Vo等人于2024年创建,旨在针对越南社交媒体文本中的仇恨言论进行多目标检测。该数据集包含10,000条越南语社交媒体评论,标注了针对个体、群体、宗教/信仰、种族/民族和政治五个目标的仇恨程度,采用三级标注体系(0=无仇恨,1=冒犯性,2=仇恨性)。作为越南语领域首个针对多目标仇恨言论的标注数据集,VITHSD为东南亚语言环境下的社交媒体内容分析提供了重要基准,推动了跨文化仇恨言论检测研究的发展。
当前挑战
VITHSD数据集面临双重挑战:在领域问题层面,越南语复杂的语言特征(如音调系统、混合编码习惯)增加了仇恨言论的语义识别难度,同时多目标分类需要平衡不同类别间的数据不平衡问题;在构建过程中,标注者需处理仇恨表达的本土化特征(如方言隐喻、政治敏感词),且三级标注体系要求精确区分主观性较强的'冒犯性'与'仇恨性'界限,这对标注一致性与质量控制提出了较高要求。
常用场景
经典使用场景
在越南社交媒体文本分析领域,VITHSD数据集被广泛用于多标签分类任务,特别是针对特定目标的仇恨言论检测。研究者通过该数据集能够训练和评估模型对越南语社交媒体评论的仇恨程度进行分类,涵盖个体、群体、宗教/信仰、种族/民族和政治五大目标类别。其精细的三级标注体系(无仇恨、冒犯性、仇恨性)为模型提供了丰富的监督信号,使得该数据集成为越南语仇恨言论检测领域的基准工具。
衍生相关工作
围绕VITHSD数据集已产生系列重要研究成果,包括Vo等人提出的基于目标注意力机制的BiLSTM模型,以及后续研究者改进的跨语言迁移学习框架。这些工作显著提升了越南语仇恨检测的F1值,部分成果已被整合到越南主流社交平台的内容过滤系统中。数据集还催生了针对东南亚多语言仇恨言论的比较研究,推动了区域性的数字伦理学术对话。
数据集最近研究
最新研究方向
随着社交媒体在越南的普及,仇恨言论检测成为自然语言处理领域的重要研究方向。VITHSD数据集作为首个针对越南语的多目标仇恨言论检测数据集,为研究者提供了丰富的标注资源。当前研究热点集中在基于深度学习的多标签分类模型优化,特别是针对越南语的语言特性进行模型适配。Transformer架构如PhoBERT等预训练模型在该数据集上展现出显著优势,但如何平衡不同目标类别间的数据分布仍具挑战性。该数据集的发布推动了东南亚地区多语言仇恨言论检测研究的发展,为跨文化社会计算提供了重要基准。
以上内容由遇见数据集搜集并总结生成



