DaijobuAI/moderation_dataset

Name: DaijobuAI/moderation_dataset
Creator: DaijobuAI
Published: 2024-06-10 16:30:12
License: 暂无描述

Hugging Face2024-06-10 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/DaijobuAI/moderation_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: S dtype: float64 - name: H dtype: float64 - name: V dtype: float64 - name: HR dtype: float64 - name: SH dtype: float64 - name: S3 dtype: float64 - name: H2 dtype: float64 - name: V2 dtype: float64 - name: FN dtype: int64 - name: OK dtype: int64 - name: text dtype: string splits: - name: train num_bytes: 1196733.6 num_examples: 1962 - name: test num_bytes: 132970.4 num_examples: 218 download_size: 786719 dataset_size: 1329704 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* license: mit task_categories: - text-classification language: - en tags: - not-for-all-audiences size_categories: - 1K<n<10K --- ## Moderation Dataset Based on mmathys/openai-moderation-api-evaluation and davanstrien/WELFake **Warning** ``` This dataset contains nsfw, chocking, discriminatory and hateful text. It is intended to be used to train moderation AI assistants and should not be used for any other mean or reason. Please use with care. ``` | Category | Label | Definition | | -------- | ----- | ---------- | | sexual | `S` | Content meant to arouse sexual excitement, such as the description of sexual activity, or that promotes sexual services (excluding sex education and wellness). | | hate | `H` | Content that expresses, incites, or promotes hate based on race, gender, ethnicity, religion, nationality, sexual orientation, disability status, or caste. | | violence | `V` | Content that promotes or glorifies violence or celebrates the suffering or humiliation of others. | | harassment | `HR` | Content that may be used to torment or annoy individuals in real life, or make harassment more likely to occur. | | self-harm | `SH` | Content that promotes, encourages, or depicts acts of self-harm, such as suicide, cutting, and eating disorders. | | sexual/minors | `S3` | Sexual content that includes an individual who is under 18 years old. | | hate/threatening | `H2` | Hateful content that also includes violence or serious harm towards the targeted group. | | violence/graphic | `V2` | Violent content that depicts death, violence, or serious physical injury in extreme graphic detail. | | fake news | `FN` | Fake news | OK | `OK` | OK

--- dataset_info: 数据集信息 features: - 字段名：S，数据类型：float64 - 字段名：H，数据类型：float64 - 字段名：V，数据类型：float64 - 字段名：HR，数据类型：float64 - 字段名：SH，数据类型：float64 - 字段名：S3，数据类型：float64 - 字段名：H2，数据类型：float64 - 字段名：V2，数据类型：float64 - 字段名：FN，数据类型：int64 - 字段名：OK，数据类型：int64 - 字段名：text，数据类型：字符串 splits: - 划分名称：训练集（train），占用字节数：1196733.6，样本总量：1962 - 划分名称：测试集（test），占用字节数：132970.4，样本总量：218 download_size: 下载总大小：786719 dataset_size: 数据集总大小：1329704 configs: - 配置名称：默认配置（default），数据文件路径： - 训练集划分对应路径：data/train-* - 测试集划分对应路径：data/test-* license: MIT许可证 task_categories: - 文本分类（text-classification） language: - 英语（en） tags: - 非全受众可用（not-for-all-audiences） size_categories: - 1K<n<10K --- 内容审核数据集本数据集基于mmathys/openai-moderation-api-evaluation与davanstrien/WELFake构建 **重要警告** 本数据集包含非安全工作场所（Not Safe For Work，NSFW）内容、令人不适的惊悚内容、歧视性内容与仇恨性文本。本数据集仅用于训练内容审核AI智能体，不得用于其他任何用途。请谨慎使用。 | 类别 | 标签 | 定义 | | ---- | ---- | ---- | | 色情内容（sexual） | `S` | 旨在唤起性兴奋的内容，例如对性行为的描述，或推广性服务的内容（性教育与健康咨询内容除外）。 | | 仇恨内容（hate） | `H` | 基于种族、性别、族裔、宗教、国籍、性取向、残疾身份或种姓表达、煽动或宣扬仇恨的内容。 | | 暴力内容（violence） | `V` | 宣扬或美化暴力，或庆祝他人遭受痛苦与羞辱的内容。 | | 骚扰内容（harassment） | `HR` | 可用于在现实生活中折磨或骚扰他人，或增加骚扰发生概率的内容。 | | 自伤内容（self-harm） | `SH` | 宣扬、怂恿或描绘自伤行为的内容，例如自杀、自残与进食障碍相关内容。 | | 未成年人涉性内容（sexual/minors） | `S3` | 涉及18岁以下个体的色情内容。 | | 仇恨威胁内容（hate/threatening） | `H2` | 同时包含针对目标群体的暴力或严重伤害的仇恨性内容。 | | 极端暴力图形内容（violence/graphic） | `V2` | 以极端详细的图形细节描绘死亡、暴力或严重身体伤害的暴力内容。 | | 虚假新闻（fake news） | `FN` | 虚假新闻 | | 合规内容（OK） | `OK` | 合规无害内容 |

提供机构：

DaijobuAI

原始信息汇总

数据集概述

数据集信息

特征:
- S: 性内容
- H: 仇恨内容
- V: 暴力内容
- HR: 骚扰内容
- SH: 自残内容
- S3: 涉及未成年人的性内容
- H2: 包含威胁的仇恨内容
- V2: 极端暴力的内容
- FN: 假新闻
- OK: 正常内容
- text: 文本内容
分割:
- train: 1962个样本，1196733.6字节
- test: 218个样本，132970.4字节
下载大小: 786719字节
数据集大小: 1329704字节

配置

默认配置:
- train: data/train-*
- test: data/test-*

许可

MIT

任务类别

文本分类

语言

英语

大小类别

1K<n<10K

警告

该数据集包含不适合所有观众的内容，如性、暴力、仇恨、歧视等。
仅用于训练AI助手进行内容审核，不得用于其他目的。

搜集汇总

数据集介绍

构建方式

在内容审核领域，数据集的构建需兼顾多样性与代表性。本数据集整合了mmathys/openai-moderation-api-evaluation与davanstrien/WELFake两个来源，通过系统化标注流程，对文本内容进行了多维度分类。构建过程中，依据预定义类别如性暗示、仇恨言论、暴力内容等，为每条文本分配了相应的数值标签，确保了数据标注的一致性与可追溯性。最终形成了包含训练集与测试集的完整结构，为模型训练与评估提供了坚实基础。

特点

该数据集涵盖了内容审核中的关键敏感类别，包括性内容、仇恨言论、暴力描述、骚扰、自残行为及虚假信息等，每个类别均配有明确的定义与数值化标签。数据以英文文本为主，特征字段设计清晰，便于直接应用于分类任务。值得注意的是，数据集内含大量不适于所有受众的敏感内容，专为训练审核辅助系统而设计，强调了其在专业场景下的适用性与必要性。

使用方法

用户可通过HuggingFace平台直接加载该数据集，利用其预分割的训练集与测试集进行模型开发与验证。在文本分类任务中，可依据提供的数值标签字段构建多标签或多类别分类模型。鉴于数据内容的敏感性，建议仅在审核系统研发等专业场景中使用，并采取适当的伦理防护措施，避免误用或传播。

背景与挑战

背景概述

随着人工智能技术在内容生成与交互领域的广泛应用，内容审核成为确保数字环境安全与合规的关键环节。DaijobuAI/moderation_dataset由相关研究团队于近期构建，旨在为AI辅助审核系统提供高质量的标注数据。该数据集整合了mmathys/openai-moderation-api-evaluation与davanstrien/WELFake等现有资源，聚焦于识别多种有害内容类别，包括性暗示、仇恨言论、暴力、骚扰、自残、涉及未成年人的性内容、威胁性仇恨、图形化暴力以及虚假新闻。通过提供精细的多标签分类标注，该数据集推动了自动化内容审核模型的发展，对提升在线平台的内容治理能力具有重要影响。

当前挑战

在内容审核领域，核心挑战在于准确识别复杂语境下的有害内容，尤其是当文本涉及隐含意图、文化差异或新兴表达方式时，模型容易产生误判或漏判。构建DaijobuAI/moderation_dataset过程中，研究人员面临数据标注的一致性难题，因为有害内容的界定常依赖主观判断，需要跨领域专家协作以确保标签的可靠性。此外，数据来源的多样性与敏感性要求严格的伦理处理，以避免在数据收集与标注时引入偏见或二次伤害，同时平衡数据覆盖的全面性与隐私保护需求，这些因素共同增加了数据集构建的复杂性。

常用场景

经典使用场景

在内容审核与安全领域，DaijobuAI/moderation_dataset为研究者提供了一个多维度文本分类基准。该数据集通过标注性、仇恨、暴力等敏感类别，典型应用于训练和评估自动化内容审核模型。其核心价值在于模拟真实网络环境中的有害内容，帮助模型识别并过滤不当信息，从而提升在线平台的安全性与合规性。

解决学术问题

该数据集有效应对了自然语言处理中敏感内容检测的挑战，解决了传统方法在细粒度分类上的不足。通过涵盖性、仇恨、暴力及其衍生子类，它为学术研究提供了标准化的评估框架，促进了多标签分类、不平衡数据处理等关键问题的探索。其意义在于推动了内容审核技术的透明化与可解释性，为构建更安全的人工智能系统奠定了数据基础。

衍生相关工作

基于该数据集，衍生了一系列经典研究工作，包括多任务学习框架下的敏感内容检测模型、基于Transformer的细粒度分类器，以及针对不平衡标签的采样与增强策略。这些工作不仅优化了审核性能，还推动了跨语言与跨平台的内容安全研究，为后续大规模审核系统的开发提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集