OpenTuringBench

Name: OpenTuringBench
Creator: 卡迪夫大学
Published: 2025-04-16 00:36:14
License: 暂无描述

arXiv2025-04-16 更新2025-04-19 收录

下载链接：

https://huggingface.co/OpenTuringBench

下载链接

链接失效反馈

官方服务：

资源简介：

OpenTuringBench是由卡迪夫大学的研究人员创建的开源模型基准测试和框架，旨在训练和评估基于大型开放模型的机器生成文本检测和归属问题。该数据集包含了超过54.3万条文本，涵盖了7项反映不同难度级别的评估任务，包括人类/机器操作文本、域外文本和以前未见过的模型生成的文本。数据集来源于新闻类别数据集，包括42个不同主题的人类撰写的新闻标题和文章。

提供机构：

卡迪夫大学

创建时间：

2025-04-16

搜集汇总

数据集介绍

构建方式

OpenTuringBench数据集的构建基于新闻文章领域，利用HuffPost的新闻类别数据集作为人类撰写文本的来源，确保数据的多样性和真实性。通过选取42个不同主题的新闻标题和文章，共计41,426条人类撰写样本，覆盖11,615名记者。机器生成文本部分则采用多种开放大型语言模型（如Llama3、Gemma2、Qwen等），在严格控制生成参数（如温度、top_p和top_k）的条件下，生成289,982条新闻文章。最终数据集包含331,408条文本，按80-10-10的比例划分为训练集、验证集和测试集。

使用方法

OpenTuringBench数据集的使用方法包括两个主要任务：图灵测试（TT）和作者归属（AA）。在图灵测试中，模型需区分人类和机器生成的文本；在作者归属任务中，模型需识别文本的具体生成来源。数据集提供了多种评估场景，如温度变化、模型大小影响、文本重写及域外文本检测等，用户可通过训练和测试集进行模型性能评估。此外，数据集还支持对比学习框架OTBDetector的应用，用户可利用其预训练模型进行快速部署和性能比较。

背景与挑战

背景概述

OpenTuringBench是由意大利卡拉布里亚大学的Lucio La Cava和Andrea Tagarelli团队于2025年提出的一个专注于开放大语言模型（OLLMs）生成文本检测与归因的基准数据集。该数据集包含超过50万条文本，旨在解决图灵测试和作者归因两大核心问题，覆盖了新闻、论文等多种文本类型。OpenTuringBench的推出填补了当前生成文本检测领域对开放模型研究的空白，尤其在模型多样性和任务复杂性方面提供了更全面的评估框架。其影响力不仅体现在推动了生成文本检测技术的发展，还为信息可信度、内容真实性等社会关切问题提供了技术支撑。

当前挑战

OpenTuringBench面临的挑战主要体现在两个方面：领域问题方面，随着开放大语言模型生成文本的质量不断提升，区分机器生成文本与人类写作变得愈发困难，尤其是在处理经过人为修改、跨领域文本或来自未知模型的文本时；构建过程方面，数据集的创建需要平衡生成文本的多样性与真实性，确保覆盖不同模型架构和参数规模的开放模型，同时处理长文本序列的技术难题（如超过1000个标记的文本处理）以及维护数据隐私和伦理标准也是重要挑战。此外，评估任务设计需考虑温度参数变化、模型规模差异等现实场景因素，增加了基准构建的复杂度。

常用场景

经典使用场景

OpenTuringBench作为基于开放大语言模型（OLLMs）的基准测试集，其经典使用场景主要集中在机器生成文本（MGT）的检测与作者归属任务上。该数据集通过构建包含新闻文章、改写文本及跨领域文本的多样化语料，支持研究者训练和评估检测模型在复杂场景下的性能，如区分人类撰写与机器生成内容、识别不同OLLMs的生成风格等。其设计特别强调对模型温度变化、文本改写及人机混合内容等挑战性任务的覆盖，为检测算法的鲁棒性评估提供了标准化平台。

解决学术问题

OpenTuringBench有效解决了当前MGT检测领域的核心学术问题：一是填补了开放模型生成文本检测基准的空白，通过覆盖Llama3、Gemma等7种前沿OLLMs，克服了传统基准依赖过时或商业模型的局限；二是提出了作者归属（AA）这一更具挑战性的任务框架，揭示了不同模型生成文本的细微差异特征；三是通过设计域外文本（OOD）和未见模型生成文本的检测任务，推动了检测算法泛化能力的研究。该数据集为评估检测工具在信息可信度、内容真实性等关键问题上的效能提供了科学依据。

实际应用

在实际应用中，OpenTuringBench可服务于多类场景：新闻机构可利用其训练的检测器识别AI生成的虚假新闻，维护内容可信度；学术出版领域可借助作者归属功能筛查论文代写行为；AI开发团队则能通过评估生成文本的检测难度，优化模型的人类模仿能力。此外，其提供的OTBDetector框架已展现出在混合人机文本检测中的优越性，为社交媒体平台过滤机器生成内容提供了技术支撑。

数据集最近研究