C-ReD
收藏arXiv2026-04-14 更新2026-04-15 收录
下载链接:
https://github.com/HeraldofLight/C-ReD
下载链接
链接失效反馈官方服务:
资源简介:
C-ReD是由清华大学等机构联合构建的中文AI生成文本检测基准数据集,涵盖新闻、问答、影评、作文及学术写作五大真实场景领域。数据集包含12,997条人工撰写文本和115,613条由9种大模型生成的AI文本,总规模达128,610条,数据来源于THUC-News、知乎、豆瓣等权威平台。通过精心设计的真实场景提示模板生成多领域文本,并经过自动化过滤与专家人工筛查双重质量控制。该数据集旨在解决中文AI文本检测中模型多样性不足、领域覆盖单一等核心问题,为检测算法提供跨领域、跨模型的评估基准。
C-ReD is a benchmark dataset for Chinese AI-generated text detection jointly constructed by Tsinghua University and other institutions. It covers five real-world scenario domains including news, question answering, movie reviews, student essays and academic writing. The dataset contains 12,997 manually authored texts and 115,613 AI-generated texts from 9 large language models, with a total of 128,610 instances. The data is sourced from authoritative platforms such as THUC-News, Zhihu and Douban. Multi-domain texts are generated via meticulously designed real-world prompt templates, and the dataset undergoes dual quality control including automated filtering and expert manual screening. This dataset aims to address core issues such as insufficient model diversity and narrow domain coverage in Chinese AI text detection, providing a cross-domain and cross-model evaluation benchmark for detection algorithms.
提供机构:
清华大学; 南开大学; 哈尔滨工业大学·深圳; 鹏城实验室
创建时间:
2026-04-14
原始信息汇总
C-ReD 数据集概述
数据集状态
- 当前状态:即将发布。
数据集描述
- 描述:根据 README 文件内容,该数据集目前尚无具体信息提供,仅标注为“即将发布”。
搜集汇总
数据集介绍

构建方式
C-ReD数据集的构建过程体现了对现实场景的高度还原与严谨的质量控制。研究团队从新闻、问答、影评、作文及学术写作五个实际应用领域收集了人类撰写的文本作为基准,并针对每个领域设计了贴近真实使用情境的提示模板。随后,利用包括五个国内主流模型在内的九种大语言模型,根据这些模板生成对应的AI文本。为确保数据质量,团队实施了双重质量控制机制:一方面通过自动化过滤去除格式噪声、控制文本长度并监测语言一致性;另一方面由领域专家进行人工筛查,剔除低质量样本,最终将所有人机文本统一处理为纯净的段落格式,形成了规模庞大且标注清晰的中文语料库。
特点
C-ReD数据集的核心特点在于其全面性与真实性。它涵盖了五个差异显著的文本领域,并集成了九种不同的生成模型,特别是包含了DeepSeek、Qwen等国内先进模型,有效弥补了以往中文检测数据在模型多样性上的不足。数据生成所采用的提示均源于真实应用场景,避免了人为简化,从而提升了语料的现实代表性。此外,该数据集不仅提供了文本内容和生成标签,还保留了完整的元信息,如原始提示、生成模型及所属领域,为多维度、细粒度的检测算法研究与评估提供了坚实基础。
使用方法
该数据集主要服务于AI生成文本检测模型的训练、评估与泛化能力研究。使用者可按照标准协议划分训练集与测试集,用于监督学习模型的训练。同时,其涵盖多领域、多模型的结构支持进行跨领域和跨模型的泛化性能测试,例如将在新闻领域训练的模型应用于学术文本检测,或评估模型对训练时未见过的新生成模型的识别能力。此外,研究者还可利用其丰富的元数据,深入分析不同提示策略、生成模型特性对检测难度的影响,推动检测机理的探索与更鲁棒算法的开发。
背景与挑战
背景概述
随着大语言模型生成文本能力的飞速提升,其在带来便利的同时也引发了诸如网络钓鱼、学术不端等风险,使得AI生成文本检测成为亟待解决的关键问题。C-ReD数据集由清华大学、南开大学等机构的研究团队于2026年共同构建,旨在填补中文领域检测基准的空白。该数据集聚焦于解决现有中文语料库中模型多样性不足、数据同质化严重以及提示设计脱离真实场景等核心问题,通过整合来自新闻、问答、影评、作文及学术写作五个真实领域的人类文本,并利用九种大语言模型生成对应的AI文本,构建了一个全面且贴近实际应用的中文检测基准。C-ReD的推出显著提升了检测模型在领域内外的泛化能力,为中文AI生成文本的可靠识别提供了重要的数据基础和研究范式。
当前挑战
C-ReD数据集所应对的核心领域挑战在于精准区分高度拟人化的中文AI生成文本与人类创作,尤其在新闻、学术写作等逻辑严密、风格多变的领域,检测难度显著增加。具体而言,其面临的挑战主要包括两方面:在解决领域问题层面,模型需克服中文特有的分词复杂性、语境敏感语义以及丰富文化隐喻带来的识别障碍,同时应对像DeepSeek-R1这类采用思维链推理的模型所生成的逻辑连贯、高度拟人化文本的检测难题;在构建过程层面,研究团队需确保数据来源的多样性与真实性,涵盖五大领域的人类文本,并设计贴近真实场景的提示模板以生成高质量的AI文本,同时通过严格的质量控制流程处理数据噪声、长度不一及格式标准化等问题,以保障数据集的代表性与可靠性。
常用场景
经典使用场景
在人工智能生成文本检测领域,C-ReD数据集被广泛用于评估和比较不同检测方法的性能。该数据集覆盖新闻、问答、影评、作文和学术写作五个领域,并包含来自九种大型语言模型的生成文本,为研究者提供了多领域、多模型的标准化测试平台。通过在该数据集上进行训练和评估,研究者能够系统分析检测算法在不同文本类型和生成模型上的表现差异,从而推动检测技术的优化与创新。
解决学术问题
C-ReD数据集有效解决了中文AI生成文本检测研究中模型多样性不足、数据同质化和提示设计脱离实际三大关键问题。通过纳入包括国产模型在内的九种主流语言模型,并设计基于真实场景的多样化提示,该数据集显著提升了检测模型的泛化能力和跨领域适应性。其丰富的领域覆盖和高质量的数据标注为检测算法的鲁棒性评估提供了可靠基础,填补了中文检测基准在模型覆盖和场景真实性方面的空白。
衍生相关工作
C-ReD数据集的发布催生了一系列相关研究工作,特别是在跨语言检测、领域自适应和少样本学习方向。例如,基于C-ReD的评估框架被用于探索传统中文与简体中文之间的检测模型迁移能力;部分研究利用其多领域特性开发了混合风格专家模型,通过条件阈值估计提升跨域检测性能;此外,该数据集还支持了基于提示工程和上下文学习的少样本检测方法创新,推动了训练效率与检测精度的平衡发展。
以上内容由遇见数据集搜集并总结生成



