KoDetox

Hugging Face2025-06-21 更新2025-06-22 收录

下载链接：

https://huggingface.co/datasets/Jaime-Choi/KoDetox

下载链接

链接失效反馈

官方服务：

资源简介：

KoDetox是一个韩语的有毒和净化评论对的数据集，包含8856对样本，用于毒性语言缓解、指令调整和校准调整等任务。每个样本包括原始有毒评论、净化后的评论和9个细粒度仇恨言论类别的标签。

创建时间：

2025-06-13

原始信息汇总

KoDetox: 韩国仇恨言论净化配对数据集

数据集概述

目的：用于韩语毒性语言缓解、指令调优和对齐调优（如DPO、PPO）
语言：韩语
规模：8,856对毒性评论与净化版本
许可证：CC BY 4.0
生成模型：Qwen3-14B

数据结构

数据格式

每个样本为JSON对象，包含：
- original：原始毒性评论
- purified：净化版本（保留核心含义，减少攻击性）
- label：9个细粒度仇恨言论类别的多标签

统计信息

总样本数：8,856
标签类别数：9
最频繁标签：politics（3,758次）

文本长度

评论类型	平均长度	最大长度
Original	56.0字符	400字符
Purified	87.6字符	510字符

标签分布

9个仇恨类别：politics, profanity, gender, race, age, region, physical_disability, social_hierarchy, religion

生成过程

数据来源

从以下数据集收集原始韩语仇恨评论：
- K-MHaS
- KoMultiText
- K-HATERS

净化生成

使用Qwen3-14B模型生成净化版本
采用一致的指令模板进行批处理推理

后处理

直接解析模型输出，无人工干预
过滤确保基本格式正确性和净化质量

伦理考虑

包含潜在冒犯性语言
净化质量可能因样本而异

引用

bash @misc{KoDetox2025, title = {KoDetox: A Paired Dataset for Korean Hate Speech Detoxification}, author = {Haemin Choi, Soohwa Kwon, Jinwoo Son, Sungjun Kang}, year = {2025}, howpublished = {https://huggingface.co/datasets/Jaime-Choi/KoDetox}, note = {A Korean dataset of toxic and detoxified comment pairs for alignment and detoxification tasks.} }

贡献者

Haemin Choi（成均馆大学数据科学学士）
Soohwa Kwon（成均馆大学数据科学学士）
Jinwoo Shon（成均馆大学心理学学士）
Sungjun Kang（成均馆大学工商管理学士）

参考文献

bash @article{lee2022k, title={K-MHaS: A multi-label hate speech detection dataset in Korean online news comment}, author={Lee, Jean and Lim, Taejun and Lee, Heejun and Jo, Bogeun and Kim, Yangsok and Yoon, Heegeun and Han, Soyeon Caren}, journal={arXiv preprint arXiv:2208.10684}, year={2022} } @article{park2023k, title={K-haters: A hate speech detection corpus in korean with target-specific ratings}, author={Park, Chaewon and Kim, Soohwan and Park, Kyubyong and Park, Kunwoo}, journal={arXiv preprint arXiv:2310.15439}, year={2023} } @article{choi2023komultitext, title={KoMultiText: Large-Scale Korean Text Dataset for Classifying Biased Speech in Real-World Online Services}, author={Choi, Dasol and Song, Jooyoung and Lee, Eunsun and Seo, Jinwoo and Park, Heejune and Na, Dongbin}, journal={arXiv preprint arXiv:2310.04313}, year={2023} }

搜集汇总

数据集介绍

构建方式

KoDetox数据集的构建过程体现了对韩语网络仇恨言论治理的前沿探索。研究团队从K-MHaS、KoMultiText和K-HATERS三个基准数据集中精选了10,000条典型韩语仇恨言论样本，通过人工标注将其划分为政治、性别、宗教等9个细粒度类别。采用Qwen3-14B大语言模型进行批量去毒化处理，模型在特定系统提示下将原始毒害性内容转化为保留语义但更温和的表达。经过自动化过滤后，最终形成8,856对高质量毒害-净化文本对，平均净化文本长度较原始内容增加56%。

使用方法

研究者可通过HuggingFace平台直接加载该数据集进行多维度探索。在文本净化任务中，建议将original字段作为输入，purified字段作为监督信号，采用seq2seq架构进行端到端训练。对于细粒度分类研究，可利用label字段实现多标签分类模型的性能评估。该数据集特别适合用于对比学习框架，通过分析原始与净化文本的语义距离，优化去毒化模型的保真度与安全性平衡。使用时应遵循CC BY 4.0协议，并注意模型可能存在的去毒化程度不均匀现象。

背景与挑战

背景概述

KoDetox数据集由韩国成均馆大学的数据科学团队于2025年创建，专注于韩语仇恨言论的净化研究。该数据集包含8,856对原始有毒评论及其净化版本，覆盖政治、宗教、性别等9个细粒度仇恨类别，为韩语文本净化、指令微调和对齐调优等任务提供了重要资源。其构建基于K-MHaS、KoMultiText和K-HATERS三个现有数据集，采用Qwen3-14B模型进行自动化净化处理，填补了韩语在仇恨言论缓解领域的数据空白，对促进社交媒体内容安全和自然语言处理伦理研究具有显著意义。

当前挑战

KoDetox面临的核心挑战体现在领域问题和构建过程两个维度。在领域层面，韩语复杂的敬语体系和语境依赖性使得净化文本需同时满足语义保持与攻击性消除的双重约束，尤其针对政治、宗教等敏感话题的细粒度分类更具挑战性。构建过程中，自动化生成的净化文本存在风格不一致问题，模型对隐晦仇恨表达的识别不足导致部分样本净化不彻底。此外，源数据中各类别样本分布不均，如政治类占比42.4%，可能影响模型在少数类别上的泛化能力。

常用场景

经典使用场景

在自然语言处理领域，KoDetox数据集为韩语文本净化研究提供了重要资源。该数据集通过提供原始仇恨言论与净化后文本的配对样本，成为训练和评估文本生成模型的基准工具。研究人员利用其精细标注的9类仇恨言论标签，能够开展针对特定领域的有毒语言转化研究，尤其在政治、宗教等敏感话题的文本改写任务中展现出独特价值。

解决学术问题

KoDetox有效解决了韩语环境下仇恨言论量化分析的难题。通过构建大规模人工标注语料，该数据集填补了多标签仇恨言论分类研究的空白，为建立细粒度毒性检测模型提供数据支撑。其意义在于突破了传统二分类毒性检测的局限，使研究者能够深入探究不同社会维度仇恨言论的转化规律，推动了跨文化语境下语言净化理论的发展。

实际应用

该数据集在韩国社交媒体内容审核系统中具有直接应用价值。互联网平台可基于其训练的模型实时检测用户评论的毒性类别，并自动生成符合社区规范的改写建议。教育机构利用这些技术开发数字公民教育工具，帮助学生识别网络暴力语言。政府监管部门则借助该数据集构建舆情监测系统，及时预警群体歧视言论的传播趋势。

数据集最近研究