datademon4/ghostbuster-essay-cleaned

Name: datademon4/ghostbuster-essay-cleaned
Creator: datademon4
Published: 2026-04-25 01:39:40
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/datademon4/ghostbuster-essay-cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

Ghostbuster论文数据集（人类撰写与LLM撰写的论文，已清理）用于区分人类撰写和大型语言模型（LLM）撰写的论文。数据集包含清理后的文本，已删除空文本或非常短的文本。数据集包含各种标签，指示文本的来源（如claude、gpt、human等）。数据集结构包含字段如text、label、ID、filename和prompt，并分为训练集和测试集。该数据集由论文《Ghostbuster: Detecting Text Ghostwritten by Large Language Models》的作者创建，采用CC By 3.0许可证。

Essay dataset used in the paper Ghostbuster: Detecting Text Ghostwritten by Large Language Models (see citation below). Empty or very short texts removed. The original data was txt files in folders for each label. The filenames allow you to match generated texts across the various prompts. I have included the prompt corresponding to each text, but see the paper for an authoritative source on how the texts were generated and the meaning of each label. Note: The splits have been added. These are not a feature of the source data.

提供机构：

datademon4

搜集汇总

数据集介绍

构建方式

该数据集源自论文《Ghostbuster: Detecting Text Ghostwritten by Large Language Models》，原始数据以txt文件形式按标签分类存放。经过去除空文本和过短内容后，保留了结构化的文本、标签、ID、文件名及对应提示信息，并划分为训练集（4858样本）与测试集（2100样本），便于后续模型的训练与评估。

使用方法

用户可直接通过HuggingFace Datasets库加载该数据集，利用text字段作为输入特征，label字段作为分类目标进行监督学习。文件名与提示信息字段可用于深入分析不同提示对生成文本特征的影响。数据集按官方划分的train/test split使用，便于复现论文实验结果并应用于教学与研究。

背景与挑战

背景概述

随着大型语言模型（LLMs）在文本生成领域的飞速发展，区分人类撰写的文本与机器生成的文本成为自然语言处理中一项紧迫且富有挑战性的任务。Ghostbuster Essay Dataset 由 Vivek Verma、Eve Fleisig、Nicholas Tomlin 和 Dan Klein 等于2024年提出，源自其研究工作“Ghostbuster: Detecting Text Ghostwritten by Large Language Models”。该数据集聚焦于学术论文场景，收录了人类撰写及由不同LLM（包括 Claude 和 GPT 系列多种提示风格）生成的英文短文，旨在为文本溯源与机器生成文本检测提供标注资源。其发布为相关领域的研究者提供了可复现的实验基准，推动了检测算法从简单统计特征向更复杂语言建模方向的发展，在学术界与工业界均具有重要影响力。

当前挑战

该数据集所解决的领域核心挑战在于准确区分人类与LLM生成的文本，尤其是在提示策略多样、模型能力持续提升的背景下，检测系统需具备跨模型和跨风格的泛化能力。构建过程中遇到的挑战包括：首先，LLM生成的文本在内容与语言层面对人类文本的模拟程度日益精妙，导致标注边界模糊；其次，原始数据中存在的空文本和过短文本需经清洗处理以保障数据质量；此外，来自不同模型的输出风格各异（如 semantic、writing 等不同提示设定），需要设计能够捕捉这种细粒度差异的文本表示与分类方法。

常用场景

经典使用场景

在大型语言模型飞速发展的时代浪潮中，区分人类原创文本与大模型生成内容已成为自然语言处理领域的一项核心挑战。Ghostbuster Essay 数据集（经清洗版）应运而生，它汇集了人类撰写的作文与来自多个大模型（如Claude、GPT系列变体）生成的文本，为文本来源鉴别研究提供了标准化基准。该数据集最经典的使用场景是作为文本二分类或多分类任务的训练与评估素材，研究者可基于其统一的格式和明确的标签，训练模型精准辨识文本的生成源头，从而推动生成文本检测技术的进步。

解决学术问题

该数据集直面大模型文本泛滥引发的学术诚信隐患，例如论文代写（ghostwriting）的识别难题。通过提供涵盖多种生成策略（如不同提示词、语义改写等）的对比样本，它助力学界系统探究大模型文本的统计特征与语言学规律。其意义在于终结了以往研究中数据碎片化的窘境，为开发鲁棒的机器生成文本检测算法提供了可靠基石，进而维护学术研究的原创性与严肃性，深远影响了信息可信度评估这一交叉学科领域的发展。

实际应用

在现实世界中，该数据集的应用场景横跨教育评测与内容安全两大维度。教育领域可借助基于此数据训练的模型，自动筛查学生作业中是否存在大模型代笔行为，保障考核的公平性；内容平台则可用于过滤由机器批量生成的虚假评论或低质文章，维护社区内容生态。此外，新闻出版机构亦能将其融入审校流程，甄别投稿文本的原创属性，从而在信息爆炸时代筑起一道捍卫真实与创造力的防线。

数据集最近研究