xsum.json, xsum_llama3_8b.raw_data.json

github2025-02-18 更新2025-02-25 收录

下载链接：

https://github.com/TrustMedia-zju/Lastde_Detector

下载链接

链接失效反馈

官方服务：

资源简介：

`human_original_data`目录包含原始文本，以json格式存储，例如xsum数据集。`human_llm_data_for_experiment`目录存储用于实验的完整数据，例如xsum_llama3_8b.raw_data.json。每个完整的数据条目包含两部分：original（人类编写的文本）和sampled（LLM生成的文本），两部分内容相互对应。sampled文本是通过使用相应original文本的前30个标记作为提示输入到源模型（在本例中为Llama-3-8B）进行续写生成的，所有条目都被截断为相同长度。

The `human_original_data` directory contains raw text data stored in JSON format, similar to the XSUM dataset. The `human_llm_data_for_experiment` directory stores complete experimental datasets, for example, `xsum_llama3_8b.raw_data.json`. Each complete data entry consists of two components: `original` (human-written text) and `sampled` (LLM-generated text), which correspond to each other. The `sampled` text is generated by taking the first 30 tokens of the corresponding `original` text as a prompt and inputting it into the source model (Llama-3-8B in this instance) for continuation generation, with all entries truncated to the same length.

创建时间：

2025-02-18

原始信息汇总

数据集概述

数据集名称

Training-free LLM-generated Text Detection by Mining Token Probability Sequences

方法概述

本项目提供了两种主要方法Lastde和**Lastde++**的核心代码，相关内容发表在论文中。

环境要求

Python版本：3.8
Pytorch版本：2.0.0
其他依赖：通过pip install -r requirements.txt安装

模型

存储开源模型的pretrain_models目录，包括作为代理或生成LLM文本的模型。例如，使用gpt-j-6b和Llama-3-8B模型，可以从指定地址下载模型权重。

数据集

数据集主要分为两部分：

human_original_data目录包含原始文本数据，以json格式存储，例如Xsum数据集（xsum.json）。
human_llm_data_for_experiment目录存储用于实验的完整数据，以xsum_llama3_8b.raw_data.json为例。此数据集可以通过运行特定脚本来获取。

其他相关目录存储DetectGPT/DetectNPR和DNA-GPT检测实验的完整数据，以及论文中鲁棒性部分的相关数据。

检测方法

通过shell_scripts目录中的detection_white_box.sh或detection_black_box.sh脚本触发白盒和黑盒检测。
提供了多种检测方法，包括Likelihood、LogRank、Entropy、DetectLRR、Lastde、DetectGPT、DetectNPR、DNA-GPT、Fast-DetectGPT和Lastde++等，结果将保存在不同的目录中。

基线方法

提供了以下基线实现：

基于样本的方法：Likelihood、LogRank、Entropy、DetectLRR、Lastde、Binoculars
基于分布的方法：DetectGPT、DetectNPR、DNA-GPT、Fast-DetectGPT、Lastde++
插拔式版本：Likelihood_tocsin、LogRank_tocsin、DetectLRR_tocsin、Lastde_tocsin、Fast-DetectGPT_tocsin、Lastde++_tocsin
监督学习方法：RoBERTa_Base、RoBERTa_Large、ReMoDetect

引用

@inproceedings{ xu2025trainingfree, title={Training-free {LLM}-generated Text Detection by Mining Token Probability Sequences}, author={Yihuai Xu and Yongwei Wang and Yifei Bi and Huangsen Cao and Zhouhan Lin and Yu Zhao and Fei Wu}, booktitle={The Thirteenth International Conference on Learning Representations}, year={2025}, }

搜集汇总

数据集介绍

构建方式

该数据集的构建主要分为两部分：一部分是人类原始数据，另一部分是基于大型语言模型生成的文本数据。人类原始数据以Xsum数据集为例，存储在`human_original_data`目录下，而模型生成的文本数据则存储在`human_llm_data_for_experiment`目录下，具体为xsum_llama3_8b.raw_data.json文件。每一数据条目均包含'original'（人类编写的文本）和'sampled'（LLM生成的文本），两者内容相对应，其中'sampled'文本是通过使用对应'original'文本的前30个标记作为提示输入到源模型（此处为Llama-3-8B）进行续写，并将所有条目截断为相同长度。

特点

该数据集的特点在于其创新性地结合了人类编写的文本与机器生成的文本，为研究大型语言模型生成的文本检测提供了丰富的实验材料。数据集不仅包含了原始的人类文本数据，还包含了利用LLM模型生成的对应文本，使得研究者能够直接对比分析两者之间的差异，进而评估检测方法的性能。此外，数据集还包含了用于检测实验的扰动数据和再生数据，为深入研究模型的鲁棒性提供了支持。

使用方法

使用该数据集首先需要准备相应的环境，包括Python3.8和Pytorch2.0.0等。之后，可以通过运行提供的脚本进行白盒和黑盒检测实验。具体使用时，可以参照项目提供的脚本和说明，运行`detection_white_box.sh`或`detection_black_box.sh`脚本触发检测实验。实验结果会存储在对应的目录中，便于后续的分析和比较。

背景与挑战

背景概述

xsum.json与xsum_llama3_8b.raw_data.json数据集源于对训练-free的大型语言模型（LLM）生成的文本检测的研究。该研究由Yihuai Xu等研究人员开展，并在2025年的国际学习表征会议上发表相关论文。数据集的构建旨在解决LLM生成文本的检测问题，提供了一种新的检测方法，即Lastde和Lastde++。这些方法的核心代码及相关数据集，对于推动文本生成领域的研究具有重要意义。

当前挑战

在构建该数据集时，研究人员面临了多项挑战。首先，需确保LLM生成的文本与人类撰写的文本具有一致性，以利于后续的检测工作。其次，数据集构建过程中涉及到的数据生成、模型选择及评估标准的确定均需克服大量技术难题。此外，数据集在解决LLM生成文本检测问题的同时，还需考虑其在不同环境下的适应性和稳健性，这对于提升检测方法的实用价值至关重要。

常用场景

经典使用场景

在自然语言处理领域，xsum.json与xsum_llama3_8b.raw_data.json数据集的典型应用场景是文本生成检测。这些数据集包含人类编写的文本与大型语言模型生成的文本，为研究者提供了评估检测方法性能的基准。通过这些数据集，研究者能够训练并测试模型，以区分文本是人类创作还是由LLM（Large Language Model）生成。

解决学术问题

该数据集解决了学术界中如何有效识别文本是否由大型语言模型生成的问题。在当前AI技术迅猛发展的背景下，这一问题对于保证内容真实性和防止误导性信息的传播至关重要。数据集提供了必要的实验基础，使得研究者能够设计出更为准确和鲁棒的检测算法。

衍生相关工作

基于这一数据集，衍生出了多项相关研究工作，包括但不限于Lastde和Lastde++等检测方法。这些工作进一步拓展了文本生成检测技术的边界，提高了检测算法的鲁棒性，为学术界和工业界提供了更多可选择的技术方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集