gpt-2-output-dataset

github2019-06-05 更新2024-05-31 收录

下载链接：

https://github.com/crates/gpt-2-output-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自WebText测试集的250K文档，以及针对每个GPT-2模型（基于WebText训练集训练）生成的250K随机样本和250K使用Top-K 40截断生成的样本。数据集旨在支持GPT-2模型家族生成内容的检测、偏见等研究。

This dataset comprises 250K documents from the WebText test set, along with 250K randomly generated samples and 250K samples generated using Top-K 40 truncation for each GPT-2 model (trained on the WebText training set). The dataset is designed to support research on the detection of generated content and biases within the GPT-2 model family.

创建时间：

2019-06-05

原始信息汇总

gpt-2-output-dataset 概述

数据集内容

包含250K来自WebText测试集的文档。
针对每个GPT-2模型（基于WebText训练集训练），提供250K随机样本（温度1，无截断）和250K使用Top-K 40截断生成的样本。

数据集结构

数据存储于Google Cloud Storage，路径为gs://gpt-2/output-dataset/v1。
文件包括：
- webtext.${split}.jsonl
- small-117M.${split}.jsonl
- small-117M-k40.${split}.jsonl
- medium-345M.${split}.jsonl
- medium-345M-k40.${split}.jsonl
- large-762M.${split}.jsonl
- large-762M-k40.${split}.jsonl
- xl-1542M.${split}.jsonl
- xl-1542M-k40.${split}.jsonl 其中，${split}可以是train、test或valid。

数据集应用

提供了一个基线模型baseline.py，用于训练逻辑回归检测器，使用TF-IDF单字和双字特征。
基线模型的准确率如下：

模型温度1 Top-K 40

117M 88.29% 96.79%

345M 88.94% 95.22%

762M 77.16% 94.43%

1542M 74.31% 92.69%

数据集分析

短文档的检测难度较大，随着文档长度的增加，检测性能逐渐提高。
截断采样导致生成的文本在词性分布上与真实文本有所不同，这影响了检测率。

搜集汇总

数据集介绍

构建方式

gpt-2-output-dataset数据集的构建是基于WebText测试集，其中包含了250K个文档。该数据集通过GPT-2模型在WebText训练集上训练后，生成了随机采样（温度为1，无截断）和Top-K 40截断的样本各250K个，以形成训练、验证和测试集。

特点

本数据集的特点在于，它提供了不同规模GPT-2模型生成的文本样本，包括117M、345M、762M和1542M四种不同大小的模型。此外，数据集还包含了使用Top-K采样的文本，这有助于研究文本生成的可检测性。数据集存储在Google Cloud Storage中，便于研究者进行高效访问和处理。

使用方法

使用该数据集时，研究者可利用提供的`download_dataset.py`脚本来下载所需的训练、验证和测试数据。数据以JSONL格式存储，方便进行后续的数据处理和分析。同时，数据集中还附带了一个用于训练逻辑回归检测器的基准脚本`baseline.py`，以便研究者能够对GPT-2模型家族生成的文本进行检测研究。

背景与挑战

背景概述

gpt-2-output-dataset数据集是深度学习领域的一个重要资源，旨在探索GPT-2模型生成的文本检测问题。该数据集创建于OpenAI团队，包含了从WebText测试集中抽取的25万个文档，以及针对不同规模GPT-2模型生成的对应样本。这些样本分为随机采样和Top-K截断采样两种类型，为研究者提供了丰富的实验材料。数据集自发布以来，对自然语言处理、文本生成和模型检测等研究领域产生了深远影响。

当前挑战

该数据集所面临的挑战主要包括：一是模型生成的文本在领域问题上的检测难度，如随机样本与真实文本的区分度较低；二是构建过程中确保数据质量和多样性的挑战，尤其是处理文本截断和词汇分布偏差等技术性问题。此外，数据集还涉及版权和隐私问题，需要处理数据移除请求，确保研究使用的合规性。

常用场景

经典使用场景

gpt-2-output-dataset数据集是研究文本生成模型性能的重要资源。其经典使用场景主要在于评估和比较不同规模GPT-2模型生成文本的能力，包括随机采样与Top-K截断采样生成的文本。该数据集包含了WebText测试集中的250K文档，以及基于WebText训练集训练的每个GPT-2模型生成的相应样本，为研究者提供了一个全面的文本生成效果评估平台。

衍生相关工作

基于该数据集，研究者已开展了一系列相关工作，如构建检测模型来区分不同温度和截断策略下生成的文本。这些衍生工作不仅推动了文本生成领域的技术进步，也促进了检测技术的发展，为后续的研究提供了重要的基础数据和比较基准。

数据集最近研究

模型	温度1	Top-K 40
117M	88.29%	96.79%
345M	88.94%	95.22%
762M	77.16%	94.43%
1542M	74.31%	92.69%