FredZhang7/toxi-text-3M
收藏Hugging Face2024-04-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FredZhang7/toxi-text-3M
下载链接
链接失效反馈官方服务:
资源简介:
这是一个大型多语言毒性数据集,包含来自55种自然语言的300万行文本数据,这些数据均由人类撰写或发送,而非机器翻译模型生成。数据集预处理后的训练数据包含2,880,667行评论、推文和消息,其中416,529行被分类为有毒,其余2,463,773行被视为中性。数据集支持多种类型的毒性,如身份仇恨、厌女症、暴力极端主义等,并涵盖了包括中文、英文、西班牙语等在内的多种语言。数据集的来源包括HuggingFace、研究论文、GitHub、Kaggle等多个平台,部分数据通过Twitter API获取。数据集存在一些局限性,如标签四舍五入、标注者之间的分歧等。
这是一个大型多语言毒性数据集,包含来自55种自然语言的300万行文本数据,这些数据均由人类撰写或发送,而非机器翻译模型生成。数据集预处理后的训练数据包含2,880,667行评论、推文和消息,其中416,529行被分类为有毒,其余2,463,773行被视为中性。数据集支持多种类型的毒性,如身份仇恨、厌女症、暴力极端主义等,并涵盖了包括中文、英文、西班牙语等在内的多种语言。数据集的来源包括HuggingFace、研究论文、GitHub、Kaggle等多个平台,部分数据通过Twitter API获取。数据集存在一些局限性,如标签四舍五入、标注者之间的分歧等。
提供机构:
FredZhang7
原始信息汇总
数据集概述
基本信息
- 许可协议:Apache-2.0
- 任务类别:文本分类、令牌分类、零样本分类
- 大小类别:1M<n<10M
- 语言:55种自然语言
数据集内容
- 数据规模:包含3M行文本数据
- 数据来源:人类编写,非机器翻译模型
- 训练数据:2,880,667行,其中416,529行被标记为有毒,2,463,773行标记为中性
- 验证数据:29,641行
- 测试数据:63,812行
- 数据格式:CSV文件,包含
text,is_toxic,lang三个字段
毒性类型
- 身份仇恨/同性恋恐惧
- 性别歧视
- 暴力极端主义
- 仇恨言论
- 侮辱性言论
- 色情短信
- 淫秽
- 威胁
- 骚扰
- 种族主义
- 挑衅
- 人肉搜索
- 其他
支持的语言
- 包括但不限于:Afrikaans, Albanian, Arabic, Bengali, Bulgarian, Catalan, Chinese (Simplified), Chinese (Traditional), Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Gujarati, Hebrew, Hindi, Hungarian, Indonesian, Italian, Japanese, Kannada, Korean, Latvian, Lithuanian, Macedonian, Malayalam, Marathi, Nepali, Norwegian, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Slovak, Slovenian, Somali, Spanish, Swahili, Swedish, Tagalog, Tamil, Telugu, Thai, Turkish, Ukrainian, Urdu, Vietnamese, Welsh
数据集局限性
- 所有标签四舍五入至最接近的整数,可能导致文本的毒性或中性判断不准确
- 部分标签存在审核者之间的分歧,原因包括模糊性和缺乏上下文
- 当
text字段仅包含URL、表情符号或无法识别为自然语言的内容时,对应的lang字段标记为"unknown"
搜集汇总
数据集介绍

构建方式
FredZhang7/toxi-text-3M数据集的构建基于从多个来源收集的270万行文本数据,这些数据包括来自HuggingFace、研究论文、GitHub、Kaggle、SurgeAI以及通过Twitter API获取的推文。数据集经过预处理,包含2,880,667行评论、推文和消息,其中416,529行被标记为有毒,其余2,463,773行被视为中性。数据集的构建还包括手动收集和编写的100行数据,以确保多样性和覆盖面。
使用方法
FredZhang7/toxi-text-3M数据集适用于多种自然语言处理任务,包括文本分类、令牌分类和零样本分类。用户可以通过加载CSV文件,利用其中的`text`、`is_toxic`和`lang`三列数据进行模型训练和验证。数据集的结构化格式和多语言支持使其成为开发和测试多语言毒性检测模型的理想选择。
背景与挑战
背景概述
FredZhang7/toxi-text-3M数据集是一个大规模的多语言毒性文本数据集,由300万条来自55种自然语言的文本数据组成。该数据集由Fred Zhang创建,旨在支持自然语言处理(NLP)领域的文本分类、标记分类和零样本分类任务。数据集的核心研究问题是如何在多语言环境中准确识别和分类毒性文本,这对于在线内容审核和社交媒体管理具有重要意义。数据集的构建时间约为11个月前,主要研究人员Fred Zhang通过从多个来源(如HuggingFace、GitHub、Kaggle等)收集和预处理数据,形成了这一庞大的数据资源。
当前挑战
FredZhang7/toxi-text-3M数据集在构建和应用过程中面临多项挑战。首先,多语言文本的毒性分类需要克服语言多样性和文化差异带来的复杂性。其次,数据标签的准确性受到标注者之间意见分歧的影响,特别是在文本的毒性程度接近中性时。此外,数据集中存在大量无法识别的自然语言形式(如URL、表情符号等),导致部分文本的语言标签为‘未知’。这些挑战不仅影响了数据集的质量,也对基于该数据集的模型训练提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,FredZhang7/toxi-text-3M数据集的经典使用场景主要集中在多语言文本的毒性分类任务上。该数据集包含了来自55种不同语言的300万条文本数据,涵盖了从评论、推文到消息等多种文本形式。通过训练模型,研究者和开发者能够有效识别和分类多语言环境中的毒性内容,从而提升跨语言内容审核的准确性和效率。
解决学术问题
FredZhang7/toxi-text-3M数据集解决了多语言环境下毒性文本分类的学术研究难题。传统上,毒性检测主要集中在英语等少数语言上,而该数据集通过提供多语言的毒性文本,使得研究者能够开发和验证跨语言的毒性检测模型。这不仅推动了多语言自然语言处理技术的发展,也为全球范围内的内容审核提供了理论和实践支持。
实际应用
在实际应用中,FredZhang7/toxi-text-3M数据集被广泛用于社交媒体平台、在线论坛和即时通讯应用的内容审核系统中。通过利用该数据集训练的模型,这些平台能够自动检测和过滤多语言环境中的毒性内容,从而维护社区的健康和安全。此外,该数据集还支持企业开发定制化的内容审核工具,以满足不同语言和文化背景下的特定需求。
数据集最近研究
最新研究方向
在自然语言处理领域,FredZhang7/toxi-text-3M数据集因其庞大的多语言毒性文本数据而备受关注。最新研究方向主要集中在多语言毒性检测模型的开发与优化,旨在提高模型在不同语言和文化背景下的准确性和鲁棒性。此外,研究者们也在探索如何利用该数据集进行跨语言的毒性行为分析,以揭示全球范围内毒性言论的传播模式和影响因素。这些研究不仅有助于提升社交媒体平台的监管能力,还为跨文化交流中的语言安全提供了新的视角和解决方案。
以上内容由遇见数据集搜集并总结生成



