five

RealDet

收藏
arXiv2025-05-08 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.05084v1
下载链接
链接失效反馈
官方服务:
资源简介:
RealDet是一个高质量的机器生成文本检测数据集,涵盖了广泛的主题领域,确保了实际校准并能够在与MCP结合时实现优异的检测性能。该数据集包含847,000条原始文本,涉及15个代表性行业领域,22个流行且强大的大型语言模型,并包含两种对抗性攻击。数据集的创建过程涉及从现有数据集中过滤并选择代表性行业来源,使用22个基础模型进行生成,并设计三种类型的提示来收集机器生成的文本。RealDet旨在解决机器生成文本检测中的高假阳性率问题,并提高检测性能,使其在多个检测器和数据集上具有更好的鲁棒性。

RealDet is a high-quality machine-generated text detection dataset that covers a broad range of thematic domains, featuring rigorous practical calibration and delivering exceptional detection performance when integrated with MCP. This dataset comprises 847,000 raw text samples, spanning 15 representative industry sectors, 22 popular and powerful large language models (LLMs), and includes two categories of adversarial attacks. The construction of RealDet involves filtering and selecting representative industry sources from existing datasets, generating text samples via the 22 base models, and designing three types of prompts to collect machine-generated text. RealDet aims to resolve the problem of high false positive rates in machine-generated text detection, and enhance detection performance to achieve superior robustness across multiple detectors and datasets.
提供机构:
中国科学院信息工程研究所, 中国科学院大学网络空间安全学院, 中国国家计算机网络应急技术处理协调中心
创建时间:
2025-05-08
搜集汇总
数据集介绍
main_image_url
构建方式
RealDet数据集的构建采用了多领域、多模型覆盖的策略,旨在模拟真实场景下的机器生成文本检测需求。数据来源涵盖了15个代表性领域,包括问答、新闻写作、故事生成等,确保了数据的多样性和广泛性。通过22种流行的强大语言模型(包括黑盒和白盒模型)生成机器文本,同时设计了三种类型的提示(续写、主题写作和问答)来收集多样化的生成文本。此外,数据集还包含了对抗攻击文本,如改写和编辑攻击,以增强数据集的挑战性和实用性。
特点
RealDet数据集具有三大显著特点:全面的领域覆盖、广泛的模型覆盖和大规模的文本语料。数据集横跨15个不同文本领域,远超现有数据集的领域多样性;采用22种流行且强大的语言模型生成文本,覆盖了最广泛的基模型;包含超过847k原始文本(不包括对抗文本),其中人类撰写文本超过113k,显著超越了其他数据集的规模。此外,RealDet支持中英双语,并包含对抗文本,为机器生成文本检测研究提供了丰富的资源。
使用方法
RealDet数据集的使用方法灵活多样,适用于多种机器生成文本检测任务。用户可以从数据集中采样校准集和测试集,校准集完全由人类撰写文本构成,测试集则包含人类撰写和机器生成文本。通过选择基线检测器(如Fast-DetectGPT或Binoculars)并计算其非一致性分数,用户可以从校准集的非一致性分数中导出多尺度分位数作为检测阈值。这些分位数确保假阳性率(FPR)受到约束,并可以应用于新数据的检测。数据集还支持对抗攻击场景下的鲁棒性测试,为研究和应用提供了全面的评估平台。
背景与挑战
背景概述
RealDet数据集由中国科学院信息工程研究所等单位的研究团队于2025年提出,旨在解决大语言模型生成文本检测中的关键问题。随着GPT-4等大模型的快速发展,机器生成文本在流畅度和真实性上已接近人类水平,这为虚假新闻、垃圾信息等恶意应用提供了便利。传统检测方法过度关注准确率而忽视误报率的社会风险,RealDet应运而生,其创新性地结合了保形预测框架和多尺度量化技术,构建了覆盖15个领域、22种大模型生成的84.7万条双语文本,成为目前规模最大、领域最广的基准数据集。该数据集的发布显著推动了生成文本检测领域从单一准确率导向向可靠性约束的范式转变。
当前挑战
RealDet面临的挑战主要体现在两个方面:领域问题上,现有检测器在低误报率约束下性能急剧下降,难以平衡检测准确性与可靠性要求,特别是当处理不同长度文本时非一致性评分问题突出;构建过程中,需克服多语言领域覆盖偏差、对抗样本泛化性等难题,包括22种大模型的输出风格差异整合、文本长度与检测指标的强相关性处理,以及应对改写攻击和编辑攻击等对抗手段的干扰。这些挑战使得数据集构建需要精确的统计约束和细粒度的长度分箱策略。
常用场景
经典使用场景
RealDet数据集在机器生成文本检测领域具有广泛的应用场景,特别是在零样本检测和多尺度校准预测框架中。该数据集通过覆盖15个不同领域的文本数据,确保了检测模型在多样化场景下的泛化能力。其经典使用场景包括新闻稿件的真实性验证、学术论文的抄袭检测以及社交媒体内容的自动化审核。通过结合多尺度校准预测(MCP)框架,RealDet能够有效区分人类撰写文本与机器生成文本,为相关研究提供了可靠的数据支持。
实际应用
在实际应用层面,RealDet数据集为多个关键领域提供了技术支持。在新闻媒体行业,该数据集可用于自动化事实核查系统,帮助识别AI生成的虚假新闻。在教育领域,它能够辅助学术诚信检测工具的开发,有效识别学生作业中的机器生成内容。此外,在电子商务平台,基于RealDet的检测系统可以过滤机器生成的虚假评论,维护平台内容的真实性。这些应用不仅提升了各行业的内容审核效率,也为防范AI技术滥用提供了重要保障。
衍生相关工作
RealDet数据集的发布催生了一系列相关研究工作。在检测算法方面,基于该数据集开发的多尺度校准预测框架(MCP)已成为控制误报率的基准方法。在对抗攻击研究领域,RealDet包含的改写和编辑攻击样本为文本检测的鲁棒性研究提供了新方向。此外,该数据集还启发了跨语言检测模型的开发,其中双语文本的设计为中文和英文场景下的检测算法比较研究创造了条件。这些衍生工作共同推动了机器生成文本检测领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作