TURINGBENCH

Name: TURINGBENCH
Creator: 宾夕法尼亚州立大学
Published: 2021-09-28 02:35:33
License: 暂无描述

arXiv2021-09-28 更新2024-06-21 收录

下载链接：

https://turingbench.ist.psu.edu/

下载链接

链接失效反馈

官方服务：

资源简介：

TURINGBENCH是由宾夕法尼亚州立大学创建的数据集，包含200,000个人工或机器生成的样本，涵盖20个不同的标签。数据集主要用于研究神经文本生成方法的“图灵测试”问题。数据集内容包括新闻文章，主要来源于CNN和华盛顿邮报等媒体。创建过程中，使用标题作为提示，让19个选定的神经文本生成器生成与人类编写相似的文章。TURINGBENCH的应用领域包括检测机器生成的文本，尤其是在假新闻检测和政治宣传分析中。

TURINGBENCH is a dataset created by Pennsylvania State University, comprising 200,000 human-written or machine-generated samples across 20 distinct labels. It is primarily intended for research on the "Turing test" problem in neural text generation methods. The dataset consists of news articles predominantly sourced from media outlets including CNN and The Washington Post. During the development of this dataset, headlines were used as prompts to enable 19 selected neural text generators to produce articles that mimic human-written works. Application areas of TURINGBENCH include the detection of machine-generated text, particularly in fake news detection and political propaganda analysis.

提供机构：

宾夕法尼亚州立大学

创建时间：

2021-09-28

搜集汇总

数据集介绍

构建方式

在神经文本生成技术迅猛发展的背景下，TURINGBENCH数据集通过系统化方法构建而成。研究团队首先从CNN、华盛顿邮报等主流媒体收集了约一万篇以政治新闻为主的人类撰写文章，并筛选出长度在200至500词之间的文本。随后，利用这些文章的标题作为提示，驱动19种前沿神经文本生成模型（涵盖GPT系列、GROVER、CTRL、XLM、XLNET、FAIR、TRANSFORMER-XL及PPLM等架构及其变体）分别生成对应内容，最终形成包含人类与机器作者共计20个类别、规模达20万样本的语料库。数据经过清洗去除非英语标记与重复字符后，保留了约16.8万篇文章，并按照7:1:2的比例划分为训练集、验证集与测试集，且确保由同一提示生成的文章仅出现在一个集合中，以规避主题偏差。

特点

TURINGBENCH的突出特点在于其全面性与挑战性。数据集囊括了从早期GPT-1到当时最先进的GPT-3、FAIR_wmt20等多种生成模型，覆盖了不同参数规模与架构的文本生成器，为研究机器文本的演化趋势提供了丰富样本。其设计包含两项核心评测任务：图灵测试任务将检测问题形式化为19个人类与单一机器生成器的二分类子任务，测试时仅使用文本的前半部分以增加辨识难度；作者归属任务则要求模型在20个类别（19个机器生成器与人类）中进行多分类，旨在追踪文本的具体生成源头。数据集中机器生成文本在长度、句法结构上呈现多样性，且部分最新模型如FAIR_wmt20所产文本与人类写作高度相似，对现有检测模型构成了显著挑战。

使用方法

该数据集主要通过Hugging Face平台公开提供，研究者可使用其datasets库便捷加载。对于图灵测试任务，需分别加载19个对应不同生成器的二分类数据集（如‘TT_gpt1’）；对于作者归属任务，则加载单一的多分类数据集（‘AA’）。数据集已预分割为训练、验证与测试集，支持直接用于模型训练与评估。研究社区可基于该数据训练与优化文本检测模型，并参与TURINGBENCH官网的排行榜评比。官网要求参赛者提交模型代码或权重进行独立验证，以确保结果可靠性，排行榜主要依据F1分数对模型性能进行排序。该数据集为开发鲁棒、可泛化的机器文本检测与溯源算法提供了标准化的评测环境。

背景与挑战

背景概述

随着神经文本生成技术的飞速发展，生成式语言模型能够产生与人类写作极为相似的文本，这在带来合法应用的同时也引发了虚假新闻传播等安全隐患。为系统评估机器生成文本的检测能力，宾夕法尼亚州立大学与卡内基梅隆大学的研究团队于近年推出了TURINGBENCH基准环境。该数据集包含20万条文本样本，涵盖人类作者及19种主流神经文本生成模型，旨在通过图灵测试和作者归属两项核心任务，推动自动检测技术的研究。其构建借鉴了SQuAD和GLUE等经典基准的设计理念，为自然语言生成领域的安全治理提供了重要数据支撑。

当前挑战

TURINGBENCH所针对的核心领域挑战在于准确区分机器生成文本与人类写作，并进一步识别具体生成模型，以应对虚假信息传播等风险。然而，随着生成模型迭代，其文本质量日益逼近人类水平，使得检测任务愈发困难，例如FAIR_wmt20和GPT-3等新模型已能生成极难辨别的文本。在数据集构建过程中，研究团队面临多重挑战：需协调多样化的生成模型架构与参数规模，确保数据代表性；处理生成文本中的非英语标记、词汇重复等噪声，以消除模型偏差；同时，大规模文本生成耗费巨大计算资源，部分模型需数百小时运行，增加了数据采集的复杂度。

常用场景

经典使用场景

在自然语言生成技术迅猛发展的背景下，TURINGBENCH数据集为图灵测试与作者归属任务提供了标准化的评估环境。该数据集通过收集人类撰写的新闻文章，并利用其标题提示19种神经文本生成模型生成对应文本，构建了包含20个标签的20万篇文章。其经典使用场景聚焦于二元分类的图灵测试任务，旨在区分人类与机器生成的文本，以及多类分类的作者归属任务，以识别特定文本生成模型的来源。这些任务不仅模拟了真实世界中检测虚假信息的需求，还为研究者提供了系统评估模型性能的统一基准。

解决学术问题

TURINGBENCH数据集解决了神经文本生成领域中的核心学术问题，即如何准确区分机器生成文本与人类写作，并追溯文本的具体生成模型。该数据集通过提供大规模、多样化的文本样本，支持对图灵测试检测模型的泛化能力、鲁棒性及可解释性进行深入研究。其意义在于填补了该领域缺乏系统性基准的空白，促进了检测技术的发展，帮助应对虚假新闻、政治宣传等恶意应用带来的安全挑战。影响方面，数据集推动了如BERT、RoBERTa等先进模型在文本检测任务中的应用与优化，为后续研究提供了关键的数据支撑和评估标准。

衍生相关工作

TURINGBENCH数据集衍生了一系列经典研究工作，主要集中在改进文本检测与作者归属模型上。例如，基于该数据集的实验表明，BERT和RoBERTa等预训练模型在图灵测试任务中显著优于传统方法，推动了这些模型在检测领域的进一步适配与优化。同时，研究还探索了GLTR等可视化检测工具，以增强模型的可解释性。在作者归属方面，诸如BertAA等结合风格特征与深度学习的混合模型被提出，以应对机器文本风格相似性带来的挑战。这些工作不仅丰富了文本生成安全的研究范畴，也为后续数据集如后续的生成检测基准提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集