DetectRL-ZH

github2025-03-29 更新2025-03-06 收录

下载链接：

https://github.com/NLP2CT/NLPCC-2025-Task1

下载链接

链接失效反馈

官方服务：

资源简介：

DetectRL-ZH是一个专门用于检测中文领域中的LLM生成文本的基准数据集，是DetectRL的中文扩展版本。它模拟了真实世界的条件，包含多样化的改写、对抗和混合样本。

DetectRL-ZH, the Chinese extension of DetectRL, is a benchmark dataset specifically developed for detecting LLM-generated text in the Chinese domain. It simulates real-world settings and encompasses a diverse collection of paraphrased, adversarial, and mixed samples.

创建时间：

2025-02-27

原始信息汇总

NLPCC2025 Shared-Task 1: LLM-Generated Text Detection

任务介绍

任务背景：随着大型语言模型（LLM）的快速发展，其生成的文本质量越来越接近人类书写的内容。但是，这些模型也可能生成虚构信息、有害内容，或以各种方式被滥用。因此，有效区分LLM生成的文本和人类书写的文本成为一个关键且紧迫的问题。
研究现状：尽管在检测LLM生成文本方面取得了显著进展，但大多数研究集中在英语上，针对中文的研究相对较少。
任务目标：开发更稳健的检测器，用于识别LLM生成的文本，推动中文领域的研究。

数据描述

数据集名称：DetectRL-ZH
数据集用途：用于检测中文领域LLM生成的文本
数据集来源：ASAP、CNewSum、CSL三个领域的数据
数据集生成模型：GPT-4o、GLM-4-flash、Qwen-turbo三种LLM
数据集统计：
- 训练集：共32,400个样本，来自3种LLM和3个领域
- 开发集：2,800个样本，包括1,700个机器生成文本和1,100个人类生成文本
- 测试集：未提供具体样本数量，包含未知模型和领域的数据

数据下载

Google Drive链接：https://drive.google.com/drive/folders/1R5KiW7uwQ002dOE2expEYQLbzQ_gMr8j?usp=sharing
Github链接：https://github.com/NLP2CT/NLPCC2025-Task1/tree/main/data

数据格式

训练数据格式： json { "text": "机器或人类生成的文本", "label": "标签（人类文本: 0, 机器文本: 1）", "model": "生成数据的模型", "source": "来源（ASAP, CNewSum, CSL）" }
开发集和测试数据格式： json { "text": "机器或人类生成的文本", "label": "标签（人类文本: 0, 机器文本: 1）" }

评价指标

官方评价指标：F1-Score

提交与评估

测试数据发布时间：2025年4月11日
结果提交截止时间：2025年4月20日
测试结果发布时间：2025年4月30日

重要日期

2025年2月17日：公布共享任务和参与邀请
2025年2月28日：发布详细任务指南和训练数据
2025年3月25日：注册截止
2025年4月11日：发布测试数据
2025年4月20日：参与者结果提交截止
2025年4月30日：评估结果发布和系统报告及会议论文征稿
2025年5月22日：会议论文提交截止（仅限共享任务）
2025年6月12日：会议论文接受/拒绝通知
2025年6月25日：最终版论文提交截止

奖项与结果

每个任务和赛道的前3名团队将获得NLPCC和CCF-NLP的证书

组织者与联系方式

组织者：NLP2CT Lab, University of Macau
联系方式：
- Derek, Fai Wong
- Junchao Wu
- Runzhe Zhan
- Yulin Yuan
邮箱：nlp2ct.junchao@gmail.com

FAQ

参赛注册方式：在NLPCC 2025 Shared Task官方网站上填写注册表并提交
是否允许使用额外数据：不允许使用外部数据源，但允许数据增强（详见数据限制）

搜集汇总

数据集介绍

构建方式

DetectRL-ZH数据集的构建，旨在针对中文领域的大型语言模型生成的文本进行检测。该数据集模拟真实世界情景，包含多样化的改写、对抗性和混合样本。训练集涵盖了来自三种LLM模型和三个领域的数据，包括ASAP、CNewSum和CSL，以及GPT-4o、GLM-4-flash和Qwen-turbo生成的文本。通过严格的数据收集和标注流程，确保数据集的质量和可靠性。

特点

DetectRL-ZH数据集的特点在于其针对中文文本的检测任务进行了优化，弥补了现有研究中中文数据集的不足。数据集包含了多样化的样本类型，不仅涵盖了机器生成的文本，也包括了人类撰写的文本，从而能够全面评估检测算法的性能。此外，数据集的构建考虑了真实世界情景的复杂性，为研究提供了具有挑战性的测试环境。

使用方法

使用DetectRL-ZH数据集时，参与者需要设计并构建检测算法，利用提供的训练数据区分LLM生成的文本和人类撰写的文本。在遵守数据使用规定的前提下，参与者可以对训练数据进行增广，以提升模型性能。评测过程将基于官方发布的测试数据，要求参与者提交包含预测标签的JSON格式结果文件，以便进行统一评分和排名。

背景与挑战

背景概述

DetectRL-ZH数据集是在大型语言模型（LLM）迅速发展的背景下创建的，旨在应对由LLM生成的文本质量不断提高，逼近人类书写内容质量的挑战。该数据集由澳门大学NLP2CT实验室组织，于2025年发布，主要研究人员包括Derek Fai Wong、Junchao Wu、Runzhe Zhan和Yulin Yuan等。DetectRL-ZH是DetectRL英文数据集的中文扩展版，专为检测中文领域LLM生成的文本而设计，其构建目的是填补中文文本检测研究相对匮乏的空白，对相关领域产生了显著影响。

当前挑战

该数据集面临的挑战主要包括两个方面：一是解决领域问题，即如何有效地鉴别LLM生成的文本与人类编写的文本，这在中文领域尤其具有挑战性；二是构建过程中的挑战，如确保数据集的公平性、透明度和可重复性，同时严格禁止使用外部数据源或基于外部知识生成新的数据样本，以保证比赛公正性。此外，还需应对数据增强时的语义保持和避免引入分布外知识的挑战。

常用场景

经典使用场景

DetectRL-ZH数据集针对检测大型语言模型（LLM）生成的文本而设计，其经典使用场景在于构建和训练文本分类器，以区分机器生成文本和人类撰写文本。在现实世界中，由于LLM生成的文本质量越来越高，与人类撰写的文本越来越难以区分，因此，该数据集提供了必要的训练样本，使得研究者能够开发出更加稳健的检测算法，以应对各种可能的滥用情况，如生成虚假信息或有害内容。

衍生相关工作

基于DetectRL-ZH数据集，已经衍生出了一系列相关工作，包括但不限于对LLM生成文本的检测方法研究、检测算法的性能评估、以及针对特定场景的检测工具开发。这些工作不仅推动了LLM生成文本检测技术的进步，也为相关领域的应用研究提供了新的视角和方法论。

数据集最近研究