five

DetectRL-ZH

收藏
github2025-03-29 更新2025-03-06 收录
下载链接:
https://github.com/NLP2CT/NLPCC-2025-Task1
下载链接
链接失效反馈
官方服务:
资源简介:
DetectRL-ZH是一个专门用于检测中文领域中的LLM生成文本的基准数据集,是DetectRL的中文扩展版本。它模拟了真实世界的条件,包含多样化的改写、对抗和混合样本。

DetectRL-ZH, the Chinese extension of DetectRL, is a benchmark dataset specifically developed for detecting LLM-generated text in the Chinese domain. It simulates real-world settings and encompasses a diverse collection of paraphrased, adversarial, and mixed samples.
创建时间:
2025-02-27
原始信息汇总

NLPCC2025 Shared-Task 1: LLM-Generated Text Detection

任务介绍

  • 任务背景:随着大型语言模型(LLM)的快速发展,其生成的文本质量越来越接近人类书写的内容。但是,这些模型也可能生成虚构信息、有害内容,或以各种方式被滥用。因此,有效区分LLM生成的文本和人类书写的文本成为一个关键且紧迫的问题。
  • 研究现状:尽管在检测LLM生成文本方面取得了显著进展,但大多数研究集中在英语上,针对中文的研究相对较少。
  • 任务目标:开发更稳健的检测器,用于识别LLM生成的文本,推动中文领域的研究。

数据描述

  • 数据集名称:DetectRL-ZH
  • 数据集用途:用于检测中文领域LLM生成的文本
  • 数据集来源:ASAP、CNewSum、CSL三个领域的数据
  • 数据集生成模型:GPT-4o、GLM-4-flash、Qwen-turbo三种LLM
  • 数据集统计:
    • 训练集:共32,400个样本,来自3种LLM和3个领域
    • 开发集:2,800个样本,包括1,700个机器生成文本和1,100个人类生成文本
    • 测试集:未提供具体样本数量,包含未知模型和领域的数据

数据下载

数据格式

  • 训练数据格式: json { "text": "机器或人类生成的文本", "label": "标签(人类文本: 0, 机器文本: 1)", "model": "生成数据的模型", "source": "来源(ASAP, CNewSum, CSL)" }

  • 开发集和测试数据格式: json { "text": "机器或人类生成的文本", "label": "标签(人类文本: 0, 机器文本: 1)" }

评价指标

  • 官方评价指标:F1-Score

提交与评估

  • 测试数据发布时间:2025年4月11日
  • 结果提交截止时间:2025年4月20日
  • 测试结果发布时间:2025年4月30日

重要日期

  • 2025年2月17日:公布共享任务和参与邀请
  • 2025年2月28日:发布详细任务指南和训练数据
  • 2025年3月25日:注册截止
  • 2025年4月11日:发布测试数据
  • 2025年4月20日:参与者结果提交截止
  • 2025年4月30日:评估结果发布和系统报告及会议论文征稿
  • 2025年5月22日:会议论文提交截止(仅限共享任务)
  • 2025年6月12日:会议论文接受/拒绝通知
  • 2025年6月25日:最终版论文提交截止

奖项与结果

  • 每个任务和赛道的前3名团队将获得NLPCC和CCF-NLP的证书

组织者与联系方式

  • 组织者:NLP2CT Lab, University of Macau
  • 联系方式:
    • Derek, Fai Wong
    • Junchao Wu
    • Runzhe Zhan
    • Yulin Yuan
  • 邮箱:nlp2ct.junchao@gmail.com

FAQ

  • 参赛注册方式:在NLPCC 2025 Shared Task官方网站上填写注册表并提交
  • 是否允许使用额外数据:不允许使用外部数据源,但允许数据增强(详见数据限制)
搜集汇总
数据集介绍
main_image_url
构建方式
DetectRL-ZH数据集的构建,旨在针对中文领域的大型语言模型生成的文本进行检测。该数据集模拟真实世界情景,包含多样化的改写、对抗性和混合样本。训练集涵盖了来自三种LLM模型和三个领域的数据,包括ASAP、CNewSum和CSL,以及GPT-4o、GLM-4-flash和Qwen-turbo生成的文本。通过严格的数据收集和标注流程,确保数据集的质量和可靠性。
特点
DetectRL-ZH数据集的特点在于其针对中文文本的检测任务进行了优化,弥补了现有研究中中文数据集的不足。数据集包含了多样化的样本类型,不仅涵盖了机器生成的文本,也包括了人类撰写的文本,从而能够全面评估检测算法的性能。此外,数据集的构建考虑了真实世界情景的复杂性,为研究提供了具有挑战性的测试环境。
使用方法
使用DetectRL-ZH数据集时,参与者需要设计并构建检测算法,利用提供的训练数据区分LLM生成的文本和人类撰写的文本。在遵守数据使用规定的前提下,参与者可以对训练数据进行增广,以提升模型性能。评测过程将基于官方发布的测试数据,要求参与者提交包含预测标签的JSON格式结果文件,以便进行统一评分和排名。
背景与挑战
背景概述
DetectRL-ZH数据集是在大型语言模型(LLM)迅速发展的背景下创建的,旨在应对由LLM生成的文本质量不断提高,逼近人类书写内容质量的挑战。该数据集由澳门大学NLP2CT实验室组织,于2025年发布,主要研究人员包括Derek Fai Wong、Junchao Wu、Runzhe Zhan和Yulin Yuan等。DetectRL-ZH是DetectRL英文数据集的中文扩展版,专为检测中文领域LLM生成的文本而设计,其构建目的是填补中文文本检测研究相对匮乏的空白,对相关领域产生了显著影响。
当前挑战
该数据集面临的挑战主要包括两个方面:一是解决领域问题,即如何有效地鉴别LLM生成的文本与人类编写的文本,这在中文领域尤其具有挑战性;二是构建过程中的挑战,如确保数据集的公平性、透明度和可重复性,同时严格禁止使用外部数据源或基于外部知识生成新的数据样本,以保证比赛公正性。此外,还需应对数据增强时的语义保持和避免引入分布外知识的挑战。
常用场景
经典使用场景
DetectRL-ZH数据集针对检测大型语言模型(LLM)生成的文本而设计,其经典使用场景在于构建和训练文本分类器,以区分机器生成文本和人类撰写文本。在现实世界中,由于LLM生成的文本质量越来越高,与人类撰写的文本越来越难以区分,因此,该数据集提供了必要的训练样本,使得研究者能够开发出更加稳健的检测算法,以应对各种可能的滥用情况,如生成虚假信息或有害内容。
衍生相关工作
基于DetectRL-ZH数据集,已经衍生出了一系列相关工作,包括但不限于对LLM生成文本的检测方法研究、检测算法的性能评估、以及针对特定场景的检测工具开发。这些工作不仅推动了LLM生成文本检测技术的进步,也为相关领域的应用研究提供了新的视角和方法论。
数据集最近研究
最新研究方向
随着大型语言模型(LLM)的快速发展,其生成文本的质量日益接近人类撰写的内容。然而,这些模型也可能产生虚构信息、有害内容或以各种方式被滥用。因此,有效区分LLM生成的文本和人类撰写的文本成为一项关键且紧迫的任务。当前,DetectRL-ZH数据集针对中文领域,旨在开发更强大的检测器以识别LLM生成的文本,推动中文该领域研究的进展。该数据集结合了多样化的改写、对抗性和混合样本,模拟真实世界条件,为本领域的研究提供了新的研究方向和评价方法,对提升文本生成模型的可解释性和安全性具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作