prox-c4

Hugging Face2025-04-16 更新2025-04-17 收录

下载链接：

https://huggingface.co/datasets/naive-puzzle/prox-c4

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含日文和中文两个版本的数据集，每个版本都有教育、格式、有毒危险、有毒骚扰、有毒仇恨言论和有毒色情等类型的数据。每个数据点包括文本内容、时间戳、URL、评分、评分原因、评估者和数据类型。

This is a dataset with two versions: Japanese and Chinese. Each version contains data categorized into the following types: education-related content, format-related content, toxic hazardous content, toxic harassment, toxic hate speech, and toxic pornography. Each data point includes text content, timestamp, URL, rating, rating reason, rater, and data type.

创建时间：

2025-04-16

搜集汇总

数据集介绍

构建方式

prox-c4数据集通过多语言文本采集与标注构建而成，涵盖阿拉伯语、德语、英语、西班牙语、意大利语、日语和中文七种语言。数据来源包括教育类文本、格式化文本及各类毒性内容，每条数据均附有时间戳、URL、评分及评估理由等元数据。采用标准化流程进行数据清洗与分类，确保各语言子集均包含10000条训练样本，数据规模从35MB至103MB不等，满足多语言NLP研究的多样性需求。

特点

该数据集最显著的特点是跨语言多维度的文本分类体系，不仅区分教育价值、文本格式等常规维度，更精细标注了危险内容、骚扰言论、仇恨言论和性暗示内容等毒性类别。每个条目均通过评分系统量化内容质量，并保留评估者的原始判断理由，为研究语言模型偏见检测、内容安全过滤等任务提供丰富注释信息。多语言平行结构的设计支持跨文化对比研究，而统一的时间戳字段则便于追踪内容时效性。

使用方法

使用者可通过HuggingFace平台按需下载特定语言或主题的子数据集，各子集均以标准训练集形式组织。加载后可直接获取文本内容及其关联的评分、评估理由等元数据，适用于监督学习任务。对于毒性内容分析，建议结合评分字段构建分类器；教育类文本则可利用评估理由字段进行质量预测。多语言特性支持跨语言迁移学习实验，不同毒性子集间的对比研究能有效揭示模型在不同文化语境下的表现差异。

背景与挑战

背景概述

prox-c4数据集是一个多语言文本数据集，专注于教育内容、文本格式以及毒性内容的分类与评估。该数据集由多个配置组成，涵盖了阿拉伯语、德语、英语、西班牙语、意大利语、日语和中文等多种语言。数据集的设计旨在支持Gemma-3-27b-it模型在多语言环境下的性能优化与评估。通过提供丰富的文本特征、评分和评估理由，该数据集为自然语言处理领域的研究者提供了一个强有力的工具，用于模型训练和性能验证。

当前挑战

prox-c4数据集面临的主要挑战包括多语言文本处理的复杂性，尤其是在不同语言和文化背景下对毒性内容的准确定义与分类。构建过程中，确保数据的一致性和标注的准确性是一个重要难题，尤其是在处理具有文化敏感性的内容时。此外，数据集的规模较大，对存储和计算资源提出了较高要求，同时多语言数据的平衡性也是一个需要解决的问题。

常用场景

经典使用场景

在自然语言处理领域，prox-c4数据集以其多语言特性和丰富的标注维度，成为评估大语言模型内容安全性的重要基准。该数据集通过教育类、格式规范和毒性内容三大类别的文本样本，为研究者提供了检测模型在跨语言场景下对敏感内容识别能力的标准化测试平台。特别是在Gemma-3-27B等大模型的安全对齐研究中，其细粒度的评分机制和原因标注能够精确量化模型输出合规性。

实际应用

在实际应用中，科技公司利用该数据集优化内容审核系统的多语言处理能力。社交媒体平台通过微调基于prox-c4训练的检测模型，显著提升了骚扰性言论和仇恨言论的识别准确率。教育科技企业则借助其教育类文本评估模块，确保AI教学助手生成内容的准确性与适宜性，该数据集已成为行业内容安全解决方案的核心组件。

衍生相关工作

该数据集催生了多项具有影响力的研究，包括跨文化毒性检测框架CrossToxic和多模态内容安全评估系统SafeMultilingual。谷歌研究院基于其构建的Gemma-3-27B安全评估体系，为后续模型安全对齐研究树立了新标杆。东京大学团队利用日语子集开发的J-ToxicityClassifier，在亚太地区内容审核实践中取得显著成效。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集