ViHSD

Hugging Face2025-06-21 更新2025-06-22 收录

下载链接：

https://huggingface.co/datasets/visolex/ViHSD

下载链接

链接失效反馈

官方服务：

资源简介：

ViHSD（越南语仇恨言论检测数据集）是一个基于CSV格式的统一数据集，用于越南语社交媒体文本的仇恨言论检测。它整合了训练集、验证集和测试集，并使用'type'字段来区分不同的数据集部分。每个样本都是一个短的社交媒体评论，被标记为'HATE'（仇恨）、'OFFENSIVE'（冒犯）或'CLEAN'（清洁）。

创建时间：

2025-06-16

搜集汇总

数据集介绍

构建方式

ViHSD数据集的构建源于对越南社交媒体文本中仇恨言论检测的需求，其原始数据由Luu等人于2021年发布。该数据集通过整合训练集、开发集和测试集为一个统一的CSV文件，并添加了`type`字段以区分不同数据分割。原始数据来源于越南社交媒体用户的评论，经过人工标注为`HATE`、`OFFENSIVE`或`CLEAN`三类，确保了数据的多样性和代表性。这一构建方式不仅简化了数据管理，还便于在ViSoLex工具包中直接使用。

特点

ViHSD数据集以其针对越南语的仇恨言论检测任务而著称，包含了约26,000条训练样本、3,300条开发样本和3,300条测试样本。每条样本均为短文本用户评论，标注精细，涵盖了仇恨言论、冒犯性言论及无害言论三种类别。数据集的结构清晰，包含`text`、`label`和`type`三列，便于研究者快速加载和过滤数据。其特点在于语言针对性强、标注质量高，且适用于多种文本分类模型的评估与优化。

使用方法

使用ViHSD数据集时，可通过Hugging Face的`datasets`库直接加载，并利用`filter`方法按`type`字段分割数据。例如，加载数据集后，可通过简单的过滤操作获取训练集、开发集和测试集。数据集的格式为CSV，兼容性强，可直接用于文本分类任务的模型训练和评估。此外，该数据集已集成到ViSoLex工具包中，支持越南语社会监听和词汇规范化任务，为研究者提供了便捷的实验基础。

背景与挑战

背景概述

越南社交媒体仇恨言论检测数据集ViHSD由Luu等研究人员于2021年构建，旨在解决越南语社交媒体文本中的仇恨言论识别问题。该数据集由越南科学技术研究院等机构支持开发，收录了超过3.2万条越南语社交媒体评论，标注为仇恨言论、冒犯性言论和清洁文本三类。作为越南首个大规模仇恨言论检测基准数据集，ViHSD为东南亚语言处理领域提供了重要研究资源，推动了跨文化语境下的内容安全研究。数据集采用统一CSV格式整合训练集、验证集和测试集，便于研究者直接应用于自然语言处理模型的开发与评估。

当前挑战

仇恨言论检测面临语境依赖性强和标注主观性高的核心挑战。越南语独特的语言特征如方言变体、非正式网络用语增加了文本理解的复杂度。数据构建过程中，研究人员需处理社交媒体文本特有的拼写错误、缩写和混合语言现象。标注一致性维护是另一关键挑战，不同文化背景的标注者对冒犯性内容的判断存在差异。此外，仇恨言论的演化特性要求数据集持续更新以覆盖新兴表达方式。技术层面，模型需平衡对隐晦表达的识别能力与误报率的控制。

常用场景

经典使用场景

在越南社交媒体文本分析领域，ViHSD数据集作为仇恨言论检测的基准工具，被广泛用于训练和评估分类模型。研究者通过该数据集提供的26K训练样本，能够构建深度学习模型以区分仇恨言论、攻击性言论和正常言论，其标准化的开发集和测试集设计为模型性能比较提供了可靠依据。

解决学术问题

该数据集有效解决了越南语社交媒体场景中仇恨言论界定模糊、标注标准不统一的学术难题。通过提供大规模人工标注数据，支持研究者探索低资源语言环境下语义敏感度建模、跨文化语境偏见消除等核心问题，为东南亚语言信息处理领域建立了可扩展的研究范式。

衍生相关工作

以ViHSD为基础衍生的研究包括跨语言仇恨言论迁移学习框架ViHateBERT、融合地域文化特征的增强模型ViCLEF等。Luu团队后续提出的层次化标注体系进一步细化了攻击类型分类，而Nguyen等人构建的多模态检测系统则扩展了纯文本数据的应用边界。这些工作均被收录于ACL、COLING等顶级会议。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集