TOXIFRENCH

Name: TOXIFRENCH
Creator: 上海交通大学
Published: 2025-08-15 15:40:41
License: 暂无描述

arXiv2025-08-15 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/Naela00/ToxiFrench

下载链接

链接失效反馈

官方服务：

资源简介：

TOXIFRENCH是一个包含超过5.3万条法国在线评论的大型公开数据集，专为法国毒性检测而构建。该数据集通过半自动化标注流程创建，其中90%的标注是通过LLM预标注和人工验证完成的，极大地减少了人工标注的工作量。数据集涵盖了从2011年到2025年的广泛时间范围，旨在构建对新型毒性更具鲁棒性的模型。TOXIFRENCH数据集的创建过程结合了LLM弱监督和人工验证，确保了数据集的高质量和可靠性。数据集已被用于对超过20个模型进行基准测试，包括开源小型语言模型（SLM）、商业API和最先进的LLM，如GPT-4o和Gemini-2.5。此外，该数据集还被用于探索新的CoT微调策略，显著提高了模型在毒性检测任务中的鲁棒性和泛化能力。

TOXIFRENCH is a large-scale public dataset containing over 53,000 French online reviews, specifically constructed for French-language toxicity detection. This dataset was developed through a semi-automated annotation pipeline, where 90% of the annotations were completed via LLM pre-annotation followed by human verification, drastically reducing the manual annotation workload. The dataset spans a wide temporal range from 2011 to 2025, and is designed to foster the development of models with enhanced robustness against emerging toxic content. The creation process of TOXIFRENCH combines LLM-based weak supervision and human verification, ensuring the high quality and reliability of the dataset. The dataset has been used to benchmark over 20 models, including open-source small language models (SLMs), commercial APIs, and state-of-the-art large language models such as GPT-4o and Gemini-2.5. Additionally, this dataset has been employed to explore novel Chain-of-Thought (CoT) fine-tuning strategies, which have significantly improved the robustness and generalization capability of models in toxicity detection tasks.

提供机构：

上海交通大学

创建时间：

2025-08-15

原始信息汇总

ToxiFrench 数据集概述

数据集基本信息

名称: ToxiFrench Finetuning
语言: 法语 (fr)
许可证: MIT
任务类别: 文本分类 (text-classification)
标签:
- text-classification
- toxicity
- hate-speech
- content-moderation
- chain-of-thought
- curriculum-learning
- nlp
- french-dataset
- classification
数据集大小: 800,772,248 字节
下载大小: 305,995,844 字节

数据集结构

特征字段

msg_id: 匿名唯一消息ID (string)
content: 原始用户消息 (string)
cot_text: 思维链解释 (string)
literal_conclusion_annotator: 标注者的二元标签 ("oui"/"non") (string)

数据分割

分割名称	字节数	样本数
train_oebm	141,649	1,000
train_oebs	27,816	200
train_oebl	14,270,186	100,252
train_oeam	2,518,045	1,000
train_oeas	502,727	200
train_oeal	251,877,252	100,252
train_odbm	134,748	1,000
train_odbs	26,911	200
train_odbl	7,100,161	52,274
train_odam	2,303,325	1,000
train_odas	459,804	200
train_odal	119,611,472	52,274
train_rebm	141,627	1,000
train_rebs	28,829	200
train_rebl	14,286,314	100,252
train_ream	2,493,677	1,000
train_reas	497,625	200
train_real	251,813,431	100,252
train_rdbm	134,496	1,000
train_rdbs	27,769	200
train_rdbl	7,100,161	52,274
train_rdam	2,266,044	1,000
train_rdas	450,568	200
train_rdal	119,611,472	52,274
test	2,946,139	1,388

数据集配置

配置名称: default
数据文件路径:
- data/train_oebm-*
- data/train_oebs-*
- data/train_oebl-*
- data/train_oeam-*
- data/train_oeas-*
- data/train_oeal-*
- data/train_odbm-*
- data/train_odbs-*
- data/train_odbl-*
- data/train_odam-*
- data/train_odas-*
- data/train_odal-*
- data/train_rebm-*
- data/train_rebs-*
- data/train_rebl-*
- data/train_ream-*
- data/train_reas-*
- data/train_real-*
- data/train_rdbm-*
- data/train_rdbs-*
- data/train_rdbl-*
- data/train_rdam-*
- data/train_rdas-*
- data/train_rdal-*
- data/test-*

数据集内容

训练集分割及毒性分布

分割名称	样本数	毒性分布
rec	4,296	50.00%
reb	4,296	50.00%
rdc	52,274	4.11%
rdb	52,274	4.11%
oec	4,296	50.00%
oeb	4,296	50.00%
odc	52,274	4.11%
odb	52,274	4.11%
dpo_odc	4,296	50.00%
jigsaw_gpt_annotated	1,092	81.87%
gpt_annotated	3,612	?
non_annotated	1,087,280	?

字段说明

标准训练集字段

msg_id: 匿名唯一消息ID
content: 原始用户消息 (法语)
cot_text: 思维链解释 (仅限c变体)
literal_conclusion_annotator: 标注者的二元标签 ("oui"/"non")

DPO配置字段

msg_id: 匿名唯一消息ID
prompt: 给模型的DPO提示
chosen: 选择的响应
rejected: 拒绝的响应
content: 原始用户消息 (法语)
cot_text: 思维链解释
literal_conclusion_annotator: 标注者的二元标签 ("oui"/"non")

Jigsaw GPT标注配置字段

msg_id: 匿名唯一消息ID
original_text: Jigsaw数据集中的原始英文文本
content: 翻译后的法语文本
toxic: 毒性标签 (0或1)
severe_toxic: 严重毒性标签 (0或1)
obscene: 淫秽标签 (0或1)
threat: 威胁标签 (0或1)
insult: 侮辱标签 (0或1)
identity_hate: 身份仇恨标签 (0或1)

GPT标注和非标注配置字段

msg_id: 匿名唯一消息ID
content: 原始用户消息 (法语)

引用信息

bibtex @misc{delaval2025toxifrench, title={ToxiFrench: Benchmarking and Enhancing Language Models via CoT Fine-Tuning for French Toxicity Detection}, author={Axel Delaval and Shujian Yang and Haicheng Wang and Han Qiu and Jialiang Lu}, year={2025}, }

搜集汇总

数据集介绍

构建方式

TOXIFRENCH数据集通过半自动标注流程构建，结合了基于大型语言模型（LLM）的高置信度预标注和人工验证，显著减少了人工标注的工作量至仅10%。数据来源于法国在线论坛的高流量评论，经过严格的匿名化和过滤处理，确保了数据的多样性和隐私保护。

特点

TOXIFRENCH数据集包含53,622条法语在线评论，具有文化相关性和大规模的特点。其独特之处在于采用了细粒度的毒性分类框架，包括六个核心维度的评分，能够捕捉到隐性和文化特定的毒性表达。此外，数据集的时间跨度广泛（2011-2025年），增强了模型对新形式毒性的鲁棒性。

使用方法

TOXIFRENCH数据集适用于法语毒性检测模型的训练和评估。研究人员可以利用该数据集进行监督微调（SFT）或链式思维（CoT）微调，特别适合探索小语言模型（SLMs）在毒性检测任务中的表现。数据集已公开发布，可通过Hugging Face平台获取，便于社区使用和进一步研究。

背景与挑战

背景概述

TOXIFRENCH是由Axel Delaval等人于2025年提出的首个大规模法语毒性检测基准数据集，包含53,622条法语在线评论。该数据集由上海交通大学和清华大学等机构的研究团队构建，旨在解决法语毒性检测领域缺乏高质量、文化相关数据集的问题。TOXIFRENCH采用半自动标注流程，结合大语言模型预标注和人工验证，显著降低了人工标注成本。该数据集不仅填补了法语社区内容安全研究的空白，其创新的链式思维微调方法也为小语言模型在特定任务上的优异表现提供了实证支持，对多语言内容安全领域产生了重要影响。

当前挑战

TOXIFRENCH面临的挑战主要体现在两个方面：领域问题方面，法语毒性检测存在文化特异性强、隐含表达多样等难点，传统基于英语数据迁移的方法难以捕捉法语社区特有的语言现象；构建过程方面，数据集面临标注主观性强、边缘案例判定困难等挑战，研究者通过设计细粒度分类体系和置信度规则来提升标注一致性。此外，数据来源的局限性（主要来自特定网络论坛）也影响了模型在更广泛法语社区的泛化能力。

常用场景

经典使用场景

TOXIFRENCH数据集在法语毒性内容检测领域具有广泛的应用价值，尤其在社交媒体内容审核、在线论坛管理以及多语言安全研究中扮演着重要角色。该数据集通过半自动化标注流程构建，包含53,622条法语在线评论，为研究者提供了丰富的文化相关性和语言多样性样本。其经典使用场景包括训练和评估毒性检测模型，特别是在处理法语中隐含的、文化特定的毒性表达时表现出色。

解决学术问题

TOXIFRENCH数据集解决了法语毒性检测研究中缺乏大规模、文化相关数据集的学术难题。通过提供高质量的标注数据，该数据集使研究者能够系统评估现有模型在法语环境下的性能，并开发针对法语语言特点优化的检测方法。此外，数据集还揭示了小型语言模型（SLMs）在毒性检测任务中的潜在优势，挑战了模型规模与性能直接相关的传统假设，为相关研究提供了新的方向。

衍生相关工作

TOXIFRENCH数据集已经衍生出多项重要研究工作，特别是在小型语言模型的优化和多语言毒性检测领域。基于该数据集，研究者提出了创新的链式思维（CoT）微调策略和动态加权损失函数，显著提升了模型性能。这些方法不仅在法语毒性检测中表现出色，还被推广到其他语言的安全关键分类任务中。此外，该数据集还激发了关于模型规模与性能关系的新一轮讨论，推动了高效、可扩展的内容审核解决方案的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集