LID-XSUM

Hugging Face2025-06-05 更新2025-06-06 收录

下载链接：

https://huggingface.co/datasets/andreapdr/LID-XSUM

下载链接

链接失效反馈

官方服务：

资源简介：

LID-XSUM数据集是一个包含通过直接偏好优化方法对齐的大型语言模型生成的机器文本风格向人类编写文本风格转变的数据集，用于增强训练用于检测机器生成文本的模型。数据集提供了两种迭代版本的细化内容对齐样本，文件命名规则以及每个文件包含文档ID、文章标题、原始人类文章和机器生成文章的信息。这个数据集是由AI4Text Group和ItaliaNLP团队策划的，语言是英语，许可证信息是CC BY 4.0。

创建时间：

2025-06-04

原始信息汇总

LID-XSUM 数据集概述

数据集基本信息

任务类别: 文本分类
语言: 英语 (en)
标签: 合成文本检测、机器生成文本检测
许可证: CC BY 4.0

数据集描述

LID-XSUM 数据集是通过使用直接偏好优化（DPO）对齐大型语言模型（LLMs）生成的，旨在将机器生成文本（MGT）的风格转向人类撰写文本（HWT）的风格。该数据集用于增强训练文档集，以训练更健壮的MGT检测器。

数据来源

原始数据: 来自 Narayan et al., EMNLP 2018 的 XSUM 数据集
生成模型: llama-3.1-8b 和 gemma-2b
生成方法: 通过DPO微调模型，使其生成的文本在语言特征分布上与HWT对齐

数据集规模

第一轮DPO迭代: 100k 人类-机器内容对齐对
第二轮DPO迭代: 25k 人类-机器内容对齐对

数据集结构

数据集按生成LLMs划分，每个模型的文件夹包含两轮DPO迭代的生成结果。生成文件按以下模板命名：

LID-XSUM-<model_name>-linginform.zip: 通过选择编码关键语言特征的文档生成的文本
LID-XSUM-<model_name>.zip: 通过随机采样训练实例生成的文本

文件内容

每生成文件包含四列：

doc-id: 唯一数字ID
title: 新闻标题
human: 原始人类撰写的文章（来自XSUM数据集）
gemma-dpo-iter1: 对抗性机器生成的文章（列名取决于生成模型和DPO迭代）

用途

主要用途: 用于增强训练文档集，以训练更健壮的MGT检测器

引用

如需使用该数据集，请引用以下文献：

@misc{pedrotti2025stresstestingMGT, title={Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors}, author={Andrea Pedrotti and Michele Papucci and Cristiano Ciaccio and Alessio Miaschi and Giovanni Puccetti and Felice DellOrletta and Andrea Esuli}, year={2025}, eprint={2505.24523}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.24523}, }

搜集汇总

数据集介绍

构建方式

LID-XSUM数据集通过直接偏好优化（DPO）技术对大型语言模型进行对齐，将机器生成文本（MGT）的风格向人类撰写文本（HWT）靠拢。数据来源于XSUM数据集，经过两轮DPO迭代，首轮生成10万组人机对齐文本，次轮生成2.5万组。生成过程采用两种采样策略：基于代理分类器筛选关键语言特征的针对性采样，以及随机采样。

特点

该数据集的核心价值在于其对抗性生成机制，通过调整语言模型输出分布使其逼近人类文本的语言特征分布。特别提供了llama-3.1-8b和gemma-2b两种模型的生成结果，每条数据包含原始人类新闻标题、正文及对应的对抗生成文本。可视化图表清晰展示了语言特征分布的对齐效果，为研究机器文本检测的边界条件提供了理想素材。

使用方法

作为增强机器生成文本检测器鲁棒性的训练资源，研究者可将该数据集与原始XSUM数据结合使用。数据按生成模型和DPO迭代轮次分类存储，用户可根据需要选择特定模型和迭代版本的生成文本。典型应用场景包括：构建更强大的文本分类器、分析不同采样策略对文本风格的影响，以及探索语言特征分布对齐的量化评估方法。

背景与挑战

背景概述

LID-XSUM数据集由AI4Text Group和ItaliaNLP团队于2025年联合构建，旨在通过直接偏好优化（DPO）技术调整大型语言模型生成的文本风格，使其更接近人类写作风格，从而增强机器生成文本检测器的鲁棒性。该数据集基于Narayan等人在EMNLP 2018上发布的XSUM数据集，通过两轮DPO迭代生成了共计125K对人工与机器生成的内容对齐样本。其核心研究问题聚焦于对抗性文本生成与检测的博弈，为自然语言处理领域中的合成文本检测任务提供了重要的基准数据。

当前挑战

LID-XSUM数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，如何有效区分经过风格迁移的机器生成文本与真实人类写作仍存在显著困难，现有检测器在对抗性样本上的性能亟待提升；其二，在构建过程中，团队需克服语言特征对齐的技术难题，包括设计精准的代理分类器筛选关键语言特征，以及通过DPO迭代优化生成模型的风格迁移能力，这些都对数据质量和模型训练提出了严格要求。

常用场景

经典使用场景

在自然语言处理领域，LID-XSUM数据集通过直接偏好优化（DPO）技术调整大型语言模型的生成风格，使其更接近人类写作特征。该数据集最经典的使用场景是作为增强训练集，用于提升机器生成文本检测器的鲁棒性。研究人员通过对比人类撰写文本与经过风格迁移的机器生成文本，能够深入分析两者在语言学特征上的微妙差异，为构建更强大的检测模型提供数据支撑。

衍生相关工作

LID-XSUM数据集已衍生出多个重要研究方向，包括基于语言学特征的对抗样本生成、多模态检测模型构建等。相关经典工作如《Adversarial Robustness in Neural Text Classification》等研究都借鉴了该数据集的设计理念。这些工作进一步拓展了机器生成文本检测的研究边界，形成了从数据构建到模型优化的完整技术链条。

数据集最近研究