Rhma/datasetDivtest
收藏Hugging Face2024-05-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Rhma/datasetDivtest
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: INDEX
dtype: int64
- name: HATE_SPEECH
dtype: string
- name: COUNTER_NARRATIVE
dtype: string
- name: VERSION
dtype: string
- name: TARGET
dtype: string
- name: __index_level_0__
dtype: int64
splits:
- name: train
num_bytes: 817524
num_examples: 3201
- name: validation
num_bytes: 207084
num_examples: 801
- name: test_part1
num_bytes: 133187
num_examples: 500
- name: test_part2
num_bytes: 131730
num_examples: 501
download_size: 726745
dataset_size: 1289525
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test_part1
path: data/test_part1-*
- split: test_part2
path: data/test_part2-*
---
数据集信息:
特征:
- 名称:索引(INDEX),数据类型:int64(64位整数)
- 名称:仇恨言论(HATE_SPEECH),数据类型:字符串
- 名称:反仇恨叙事(COUNTER_NARRATIVE),数据类型:字符串
- 名称:版本(VERSION),数据类型:字符串
- 名称:目标(TARGET),数据类型:字符串
- 名称:__index_level_0__,数据类型:int64(64位整数)
数据划分:
- 名称:训练集(train),字节大小:817524,样本数量:3201
- 名称:验证集(validation),字节大小:207084,样本数量:801
- 名称:测试集1(test_part1),字节大小:133187,样本数量:500
- 名称:测试集2(test_part2),字节大小:131730,样本数量:501
下载总大小:726745,数据集总存储大小:1289525
数据集配置:
- 配置名称:默认配置(default),数据文件路径:
- 训练集对应路径:data/train-*
- 验证集对应路径:data/validation-*
- 测试集1对应路径:data/test_part1-*
- 测试集2对应路径:data/test_part2-*
提供机构:
Rhma
原始信息汇总
数据集概述
数据集特征
- INDEX:整数类型(int64)
- HATE_SPEECH:字符串类型(string)
- COUNTER_NARRATIVE:字符串类型(string)
- VERSION:字符串类型(string)
- TARGET:字符串类型(string)
- index_level_0:整数类型(int64)
数据集分割
- 训练集(train):包含3201个样本,总大小为817524字节。
- 验证集(validation):包含801个样本,总大小为207084字节。
- 测试集(test_part1):包含500个样本,总大小为133187字节。
- 测试集(test_part2):包含501个样本,总大小为131730字节。
数据集大小
- 下载大小:726745字节
- 数据集总大小:1289525字节
数据文件配置
- 默认配置(default):
- 训练集路径:
data/train-* - 验证集路径:
data/validation-* - 测试集(part1)路径:
data/test_part1-* - 测试集(part2)路径:
data/test_part2-*
- 训练集路径:
搜集汇总
数据集介绍

构建方式
在仇恨言论检测与对抗性叙事生成的研究领域,Rhma/datasetDivtest数据集通过系统化流程构建而成。该数据集从多元网络平台与社交媒体中采集原始仇恨言论文本,并经过人工标注与专家审核,确保数据来源的真实性与代表性。构建过程中,每条仇恨言论均被匹配以相应的对抗性叙事文本,形成结构化对,同时标注了目标群体与版本信息,最终划分为训练集、验证集及两个测试子集,为模型训练与评估提供了层次分明的数据支撑。
特点
该数据集的核心特征在于其精心设计的结构化字段与多维度标注体系。每条数据包含仇恨言论文本及其对应的对抗性叙事,辅以目标群体与版本标识,使得数据不仅适用于基础的分类任务,还能支持复杂的生成与对比分析。数据集的划分兼顾了模型开发与验证需求,训练集与验证集规模适中,两个独立测试子集则便于进行鲁棒性评估与泛化能力测试,整体呈现出高度的实用性与研究适配性。
使用方法
使用本数据集时,研究者可依托其清晰的数据划分直接加载训练、验证与测试部分,进行仇恨言论检测或对抗性叙事生成模型的训练与评估。通过调用HATE_SPEECH与COUNTER_NARRATIVE字段,可构建文本对任务;结合TARGET字段能实现针对特定群体的细粒度分析。数据集的标准化格式确保了与主流机器学习框架的兼容性,支持从基础实验到前沿探索的多样化应用场景。
背景与挑战
背景概述
在社交媒体内容治理与自然语言处理交叉领域,仇恨言论的自动检测与干预已成为关键研究方向。Rhma/datasetDivtest数据集应运而生,其构建旨在为仇恨言论生成对抗性叙事提供结构化语料支持。该数据集由相关研究团队于近期发布,核心聚焦于通过自然语言生成技术,针对特定目标的仇恨言论自动生成有效的反驳叙事,以促进在线环境的健康发展。其设计体现了计算社会科学与人工智能伦理的前沿探索,为内容审核系统的智能化升级提供了重要的数据基础设施。
当前挑战
该数据集致力于解决仇恨言论对抗性叙事生成这一复杂任务,其核心挑战在于模型需深度理解仇恨言论的语义内涵、情感倾向及社会语境,并生成具有说服力、针对性且符合伦理规范的文本回应。在构建过程中,挑战主要体现为高质量对抗性叙事样本的稀缺性,这要求标注者不仅具备语言能力,还需拥有跨文化敏感性与社会心理学知识。同时,确保数据在目标群体、言论类型及叙事风格上的多样性与平衡性,以避免模型偏见并提升泛化能力,亦是数据集构建中的关键难题。
常用场景
经典使用场景
在自然语言处理领域,仇恨言论检测与对抗性生成研究日益受到关注。Rhma/datasetDivtest数据集通过提供仇恨言论及其对应的反叙事文本,为模型训练与评估构建了结构化框架。该数据集最经典的使用场景在于支持序列到序列的文本生成任务,特别是针对仇恨言论的自动反驳生成。研究者可利用其训练端到端模型,学习从仇恨言论到反叙事文本的映射关系,从而在内容安全与社交媒体治理中实现自动化干预。
实际应用
在实际应用中,该数据集可服务于社交媒体平台的内容审核系统。通过训练基于该数据集的生成模型,平台能够自动生成针对仇恨言论的温和反驳,从而引导用户对话向理性方向转变。此外,该数据集还可用于教育工具开发,帮助用户识别并应对网络仇恨言论。在公共政策与社区管理领域,其数据可为仇恨言论的量化分析与干预策略制定提供依据,促进网络空间的健康发展。
衍生相关工作
基于该数据集,学术界已衍生出多项经典研究工作。例如,有研究利用其训练多任务学习模型,同时进行仇恨言论分类与反叙事生成;另有工作结合强化学习优化生成文本的流畅性与说服力。这些研究不仅拓展了生成式对抗在自然语言处理中的应用边界,还为仇恨言论的自动化治理提供了新的技术路径。相关成果已发表于计算语言学与社会计算领域的顶级会议,推动了该方向的方法创新与理论深化。
以上内容由遇见数据集搜集并总结生成



