ViHSD
收藏Hugging Face2025-06-21 更新2025-06-22 收录
下载链接:
https://huggingface.co/datasets/visolex/ViHSD
下载链接
链接失效反馈官方服务:
资源简介:
ViHSD(越南语仇恨言论检测数据集)是一个基于CSV格式的统一数据集,用于越南语社交媒体文本的仇恨言论检测。它整合了训练集、验证集和测试集,并使用'type'字段来区分不同的数据集部分。每个样本都是一个短的社交媒体评论,被标记为'HATE'(仇恨)、'OFFENSIVE'(冒犯)或'CLEAN'(清洁)。
创建时间:
2025-06-16
搜集汇总
数据集介绍

构建方式
ViHSD数据集的构建源于对越南社交媒体文本中仇恨言论检测的需求,其原始数据由Luu等人于2021年发布。该数据集通过整合训练集、开发集和测试集为一个统一的CSV文件,并添加了`type`字段以区分不同数据分割。原始数据来源于越南社交媒体用户的评论,经过人工标注为`HATE`、`OFFENSIVE`或`CLEAN`三类,确保了数据的多样性和代表性。这一构建方式不仅简化了数据管理,还便于在ViSoLex工具包中直接使用。
特点
ViHSD数据集以其针对越南语的仇恨言论检测任务而著称,包含了约26,000条训练样本、3,300条开发样本和3,300条测试样本。每条样本均为短文本用户评论,标注精细,涵盖了仇恨言论、冒犯性言论及无害言论三种类别。数据集的结构清晰,包含`text`、`label`和`type`三列,便于研究者快速加载和过滤数据。其特点在于语言针对性强、标注质量高,且适用于多种文本分类模型的评估与优化。
使用方法
使用ViHSD数据集时,可通过Hugging Face的`datasets`库直接加载,并利用`filter`方法按`type`字段分割数据。例如,加载数据集后,可通过简单的过滤操作获取训练集、开发集和测试集。数据集的格式为CSV,兼容性强,可直接用于文本分类任务的模型训练和评估。此外,该数据集已集成到ViSoLex工具包中,支持越南语社会监听和词汇规范化任务,为研究者提供了便捷的实验基础。
背景与挑战
背景概述
越南社交媒体仇恨言论检测数据集ViHSD由Luu等研究人员于2021年构建,旨在解决越南语社交媒体文本中的仇恨言论识别问题。该数据集由越南科学技术研究院等机构支持开发,收录了超过3.2万条越南语社交媒体评论,标注为仇恨言论、冒犯性言论和清洁文本三类。作为越南首个大规模仇恨言论检测基准数据集,ViHSD为东南亚语言处理领域提供了重要研究资源,推动了跨文化语境下的内容安全研究。数据集采用统一CSV格式整合训练集、验证集和测试集,便于研究者直接应用于自然语言处理模型的开发与评估。
当前挑战
仇恨言论检测面临语境依赖性强和标注主观性高的核心挑战。越南语独特的语言特征如方言变体、非正式网络用语增加了文本理解的复杂度。数据构建过程中,研究人员需处理社交媒体文本特有的拼写错误、缩写和混合语言现象。标注一致性维护是另一关键挑战,不同文化背景的标注者对冒犯性内容的判断存在差异。此外,仇恨言论的演化特性要求数据集持续更新以覆盖新兴表达方式。技术层面,模型需平衡对隐晦表达的识别能力与误报率的控制。
常用场景
经典使用场景
在越南社交媒体文本分析领域,ViHSD数据集作为仇恨言论检测的基准工具,被广泛用于训练和评估分类模型。研究者通过该数据集提供的26K训练样本,能够构建深度学习模型以区分仇恨言论、攻击性言论和正常言论,其标准化的开发集和测试集设计为模型性能比较提供了可靠依据。
解决学术问题
该数据集有效解决了越南语社交媒体场景中仇恨言论界定模糊、标注标准不统一的学术难题。通过提供大规模人工标注数据,支持研究者探索低资源语言环境下语义敏感度建模、跨文化语境偏见消除等核心问题,为东南亚语言信息处理领域建立了可扩展的研究范式。
衍生相关工作
以ViHSD为基础衍生的研究包括跨语言仇恨言论迁移学习框架ViHateBERT、融合地域文化特征的增强模型ViCLEF等。Luu团队后续提出的层次化标注体系进一步细化了攻击类型分类,而Nguyen等人构建的多模态检测系统则扩展了纯文本数据的应用边界。这些工作均被收录于ACL、COLING等顶级会议。
以上内容由遇见数据集搜集并总结生成



