five

ToxiBenchCN

收藏
Hugging Face2025-09-16 更新2025-09-17 收录
下载链接:
https://huggingface.co/datasets/jwengr/ToxiBenchCN
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含id、句子、带噪声的句子和类别四个字段。数据集分为训练集、验证集和测试集三个部分,其中训练集包含11297个示例,验证集包含1410个示例,测试集包含1414个示例。

This dataset contains four fields: id, sentence, noisy sentence, and category. It is divided into three subsets: training set, validation set, and test set. Specifically, the training set includes 11297 samples, the validation set has 1410 samples, and the test set contains 1414 samples.
创建时间:
2025-09-05
原始信息汇总

ToxiBenchCN 数据集概述

数据集基本信息

  • 数据集名称:ToxiBenchCN
  • 存储位置:https://huggingface.co/datasets/jwengr/ToxiBenchCN
  • 下载大小:1,188,111 字节
  • 数据集大小:1,772,021 字节

数据特征

  • 特征字段
    • id:int64 类型,唯一标识符
    • sentence:string 类型,原始句子
    • sentence_noisy:string 类型,含噪声句子
    • category:string 类型,类别标签

数据划分

  • 训练集(train)
    • 样本数量:11,297
    • 数据大小:1,411,090 字节
  • 开发集(dev)
    • 样本数量:1,410
    • 数据大小:179,622 字节
  • 测试集(test)
    • 样本数量:1,414
    • 数据大小:181,309 字节

配置文件

  • 配置名称:default
  • 数据文件路径
    • 训练集:data/train-*
    • 开发集:data/dev-*
    • 测试集:data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
ToxiBenchCN数据集聚焦于中文文本毒性检测领域,其构建过程依托严谨的数据采集与处理流程。原始文本来源于多样化的网络语料,通过自动化与人工标注相结合的方式,对每一条句子进行毒性分类标注,并生成对应的噪声版本以模拟真实场景中的文本扰动。数据划分遵循机器学习标准,分为训练集、验证集和测试集,确保模型评估的科学性与可复现性。
使用方法
使用者可借助该数据集开展中文毒性检测模型的训练与验证,直接加载标准分割的数据进行监督学习。噪声句子可用于测试模型在干扰环境下的鲁棒性,或用于数据增强策略。评估时,建议在测试集上计算准确率、召回率等指标,并与验证集结果对比以验证泛化能力。数据集兼容常见机器学习框架,支持端到端的实验流程。
背景与挑战
背景概述
在自然语言处理领域,文本毒性检测已成为社会计算研究的重要分支。ToxiBenchCN数据集由国内研究团队于近年构建,专注于中文语境下的毒性文本识别与去噪处理。该数据集通过精准标注的毒性类别和添加噪声的对比样本,为研究社区提供了评估模型鲁棒性的基准工具,显著推动了中文自然语言处理安全方向的发展。
当前挑战
中文毒性检测面临语义模糊性和文化语境依赖的双重挑战,模型需区分讽刺、反语等复杂语言现象。数据集构建过程中,噪声注入的平衡性难以把握,既要保持原句语义又要模拟真实噪声场景。此外,毒性标注存在主观性差异,需要多轮交叉验证以确保标注一致性,这些因素共同构成了该数据集的核心技术难点。
常用场景
经典使用场景
在自然语言处理领域,ToxiBenchCN数据集为中文文本毒性检测与去噪研究提供了重要支撑。该数据集通过包含原始语句及其噪声版本的双重标注,广泛应用于训练和评估毒性分类模型与文本净化算法,助力研究者深入探索中文语境下有害内容的识别与处理机制。
解决学术问题
该数据集有效解决了中文网络文本毒性检测中标注数据稀缺、噪声干扰建模等核心学术难题。通过提供高质量的双语句对和类别标注,支持了毒性语言成因分析、跨语言毒性迁移研究,以及鲁棒性自然语言处理模型的开发,显著提升了中文网络空间安全治理的研究水平。
实际应用
ToxiBenchCN的实际应用涵盖社交媒体内容审核、在线教育平台互动监管及智能客服系统安全过滤等多个场景。其精准的毒性标注体系为自动化内容审查工具提供了训练基础,帮助平台实时识别并处理侮辱性、歧视性言论,切实维护网络环境的健康与和谐。
数据集最近研究
最新研究方向
在自然语言处理领域的中文文本安全方向,ToxiBenchCN数据集为毒性文本检测与去噪研究提供了重要支撑。当前研究聚焦于基于深度学习的多模态毒性内容识别算法优化,结合对抗训练与迁移学习技术提升模型在跨域场景下的泛化能力。随着社交媒体内容审核需求的激增,该数据集被广泛应用于构建鲁棒性更强的毒性过滤系统,相关成果对促进网络空间清朗化具有显著实践价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作