gpt-2-output-dataset

github2019-05-07 更新2024-05-31 收录

下载链接：

https://github.com/polatbilek/gpt-2-output-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自WebText测试集的250K文档，以及针对每个GPT-2模型（训练于WebText训练集）的250K随机样本（温度1，无截断）和250K使用Top-K 40截断生成的样本。

This dataset comprises 250K documents from the WebText test set, along with 250K random samples (temperature 1, no truncation) and 250K samples generated using Top-K 40 truncation for each GPT-2 model trained on the WebText training set.

创建时间：

2019-05-06

原始信息汇总

数据集概述

数据集内容

包含250K来自WebText测试集的文档。
针对每个GPT-2模型（训练于WebText训练集），提供250K随机样本（温度1，无截断）和250K使用Top-K 40截断生成的样本。

数据集结构

数据存储于Google Cloud Storage，路径为gs://gpt-2/output-dataset/v1。
文件包括：
- webtext.${split}.jsonl
- small-117M.${split}.jsonl
- small-117M-k40.${split}.jsonl
- medium-345M.${split}.jsonl
- medium-345M-k40.${split}.jsonl
- large-762M.${split}.jsonl
- large-762M-k40.${split}.jsonl
- xl-1542M.${split}.jsonl
- xl-1542M-k40.${split}.jsonl 其中，${split}可以是train、test或valid。

数据集应用

用于研究GPT-2模型家族生成的可检测性。
提供了一个基于TF-IDF unigram和bigram特征的逻辑回归检测器作为起点，位于baseline.py。

数据集性能

不同模型在不同设置下的检测准确率如下：

模型温度1 Top-K 40

117M 88.29% 96.79%

345M 88.94% 95.22%

762M 77.16% 94.43%

1542M 74.31% 92.69%

数据集分析

短文档更难检测，随着文档长度增加，检测性能逐渐提高。
截断采样导致生成文本的词性分布与真实文本相比发生变化，如适当名词的使用减少，代词的使用增加，这导致Top-K样本的检测率比随机样本高8%至18%。

搜集汇总

数据集介绍

构建方式

gpt-2-output-dataset数据集的构建基于WebText测试集，包含250K个文档。针对每个在WebText训练集上训练的GPT-2模型，数据集提供了250K个随机样本（温度为1，无截断）和250K个使用Top-K 40截断生成的样本，从而为研究人员提供了丰富的文本生成数据资源。

使用方法

使用该数据集时，研究人员可通过Google Cloud Storage获取数据，数据存储在`gs://gpt-2/output-dataset/v1`目录下。数据以jsonl格式存储，分为训练集、验证集和测试集。同时，提供了一个`download_dataset.py`脚本以便于下载所有数据文件。对于模型检测研究，可以使用提供的`baseline.py`脚本进行初步的基线检测实验。

背景与挑战

背景概述

gpt-2-output-dataset是一个包含从WebText测试集中选取的25万份文档的数据集，旨在促进对GPT-2模型输出特性的研究。该数据集由OpenAI创建于21世纪初，核心研究问题聚焦于自然语言处理领域，特别是生成文本的检测问题。通过提供不同规模GPT-2模型生成的文本样本，该数据集对理解大型语言模型输出模式及其检测基准的发展产生了重要影响。

当前挑战

该数据集面临的挑战主要包括：一是提高生成文本的检测率，尤其是对于短文本检测准确性的提升；二是分析不同采样策略（如Top-K截断采样）对生成文本的词性分布产生的影响，这对于降低文本的可检测性至关重要。构建过程中的挑战涉及数据集的规模、多样性和质量，以及确保数据集中不含有未经授权的内容，这对于维护数据集的合法性和可靠性至关重要。

常用场景

经典使用场景

gpt-2-output-dataset作为自然语言处理领域的重要数据资源，其经典的使用场景主要集中于文本生成任务的评估与基准测试。研究人员可通过对比不同GPT-2模型生成的文本与真实文本之间的差异，来衡量模型生成的文本质量及真实性。

解决学术问题

该数据集有效解决了学术界对于大型语言模型输出文本的检测问题，提供了不同规模模型在不同截断策略下生成的文本样本，有助于研究者探索模型输出文本的检测基线，并分析文档长度、词性分布等因素对检测率的影响，从而推动对模型生成文本可解释性和可控性的深入研究。

实际应用

在实际应用中，gpt-2-output-dataset可被用于训练和优化文本检测算法，以识别机器生成的文本内容，这对于内容审核、信息过滤以及版权保护等场景至关重要。

数据集最近研究

模型	温度1	Top-K 40
117M	88.29%	96.79%
345M	88.94%	95.22%
762M	77.16%	94.43%
1542M	74.31%	92.69%