OpenTuringBench
收藏arXiv2025-04-16 更新2025-04-19 收录
下载链接:
https://huggingface.co/OpenTuringBench
下载链接
链接失效反馈官方服务:
资源简介:
OpenTuringBench是由卡迪夫大学的研究人员创建的开源模型基准测试和框架,旨在训练和评估基于大型开放模型的机器生成文本检测和归属问题。该数据集包含了超过54.3万条文本,涵盖了7项反映不同难度级别的评估任务,包括人类/机器操作文本、域外文本和以前未见过的模型生成的文本。数据集来源于新闻类别数据集,包括42个不同主题的人类撰写的新闻标题和文章。
提供机构:
卡迪夫大学
创建时间:
2025-04-16
搜集汇总
数据集介绍

构建方式
OpenTuringBench数据集的构建基于新闻文章领域,利用HuffPost的新闻类别数据集作为人类撰写文本的来源,确保数据的多样性和真实性。通过选取42个不同主题的新闻标题和文章,共计41,426条人类撰写样本,覆盖11,615名记者。机器生成文本部分则采用多种开放大型语言模型(如Llama3、Gemma2、Qwen等),在严格控制生成参数(如温度、top_p和top_k)的条件下,生成289,982条新闻文章。最终数据集包含331,408条文本,按80-10-10的比例划分为训练集、验证集和测试集。
使用方法
OpenTuringBench数据集的使用方法包括两个主要任务:图灵测试(TT)和作者归属(AA)。在图灵测试中,模型需区分人类和机器生成的文本;在作者归属任务中,模型需识别文本的具体生成来源。数据集提供了多种评估场景,如温度变化、模型大小影响、文本重写及域外文本检测等,用户可通过训练和测试集进行模型性能评估。此外,数据集还支持对比学习框架OTBDetector的应用,用户可利用其预训练模型进行快速部署和性能比较。
背景与挑战
背景概述
OpenTuringBench是由意大利卡拉布里亚大学的Lucio La Cava和Andrea Tagarelli团队于2025年提出的一个专注于开放大语言模型(OLLMs)生成文本检测与归因的基准数据集。该数据集包含超过50万条文本,旨在解决图灵测试和作者归因两大核心问题,覆盖了新闻、论文等多种文本类型。OpenTuringBench的推出填补了当前生成文本检测领域对开放模型研究的空白,尤其在模型多样性和任务复杂性方面提供了更全面的评估框架。其影响力不仅体现在推动了生成文本检测技术的发展,还为信息可信度、内容真实性等社会关切问题提供了技术支撑。
当前挑战
OpenTuringBench面临的挑战主要体现在两个方面:领域问题方面,随着开放大语言模型生成文本的质量不断提升,区分机器生成文本与人类写作变得愈发困难,尤其是在处理经过人为修改、跨领域文本或来自未知模型的文本时;构建过程方面,数据集的创建需要平衡生成文本的多样性与真实性,确保覆盖不同模型架构和参数规模的开放模型,同时处理长文本序列的技术难题(如超过1000个标记的文本处理)以及维护数据隐私和伦理标准也是重要挑战。此外,评估任务设计需考虑温度参数变化、模型规模差异等现实场景因素,增加了基准构建的复杂度。
常用场景
经典使用场景
OpenTuringBench作为基于开放大语言模型(OLLMs)的基准测试集,其经典使用场景主要集中在机器生成文本(MGT)的检测与作者归属任务上。该数据集通过构建包含新闻文章、改写文本及跨领域文本的多样化语料,支持研究者训练和评估检测模型在复杂场景下的性能,如区分人类撰写与机器生成内容、识别不同OLLMs的生成风格等。其设计特别强调对模型温度变化、文本改写及人机混合内容等挑战性任务的覆盖,为检测算法的鲁棒性评估提供了标准化平台。
解决学术问题
OpenTuringBench有效解决了当前MGT检测领域的核心学术问题:一是填补了开放模型生成文本检测基准的空白,通过覆盖Llama3、Gemma等7种前沿OLLMs,克服了传统基准依赖过时或商业模型的局限;二是提出了作者归属(AA)这一更具挑战性的任务框架,揭示了不同模型生成文本的细微差异特征;三是通过设计域外文本(OOD)和未见模型生成文本的检测任务,推动了检测算法泛化能力的研究。该数据集为评估检测工具在信息可信度、内容真实性等关键问题上的效能提供了科学依据。
实际应用
在实际应用中,OpenTuringBench可服务于多类场景:新闻机构可利用其训练的检测器识别AI生成的虚假新闻,维护内容可信度;学术出版领域可借助作者归属功能筛查论文代写行为;AI开发团队则能通过评估生成文本的检测难度,优化模型的人类模仿能力。此外,其提供的OTBDetector框架已展现出在混合人机文本检测中的优越性,为社交媒体平台过滤机器生成内容提供了技术支撑。
数据集最近研究
最新研究方向
随着开放大语言模型(OLLMs)在生成式人工智能应用中的广泛使用,机器生成文本(MGT)的检测与溯源问题日益凸显。OpenTuringBench作为首个专注于OLLMs的大规模基准数据集,通过涵盖7种不同难度级别的评估任务(包括人类/机器混合文本、跨领域文本及未见模型生成文本的检测与溯源),为研究社区提供了全面的评估框架。其创新性体现在三个方面:一是覆盖了2023-2024年最新发布的多样化OLLMs,弥补了传统基准模型陈旧或覆盖狭窄的缺陷;二是首创性地将对比学习框架OTBDetector作为基线检测器,在作者溯源任务中F1值达到0.996,显著优于现有9种检测器;三是构建了超过50万文本的大规模语料,较同类基准规模扩大7倍。该数据集尤其关注新闻领域机器文本的伦理风险,通过严格的统计指标(如POS熵、压缩比等)揭示了机器文本在可读性、句法多样性等方面与人类文本的系统性差异。当前研究前沿正围绕三个方向展开:针对混合人机文本的细粒度检测算法优化、跨语言场景下的检测模型泛化能力提升,以及基于持续学习框架应对OLLMs快速迭代的适应性挑战。
相关研究论文
- 1OpenTuringBench: An Open-Model-based Benchmark and Framework for Machine-Generated Text Detection and Attribution卡迪夫大学 · 2025年
以上内容由遇见数据集搜集并总结生成



