Generative Essay Detection in Education (GEDE)

Name: Generative Essay Detection in Education (GEDE)
Creator: 比勒费尔德大学技术学院
Published: 2025-08-11 23:34:49
License: 暂无描述

arXiv2025-08-11 更新2025-08-13 收录

下载链接：

https://github.com/lukasgehring/Assessing-LLM-Text-Detection-in-Educational-Contexts

下载链接

链接失效反馈

官方服务：

资源简介：

Generative Essay Detection in Education (GEDE)数据集由比勒费尔德大学技术学院创建，包含900多篇学生撰写的论文和超过12500篇由各种领域生成的LLM生成的论文。该数据集旨在评估LLM生成文本检测器的性能，涵盖了从纯人工撰写文本到LLM改进版本、基于人类提供的摘要生成的文本，以及完全由LLM生成的文本等多个贡献水平。数据集内容丰富，涵盖了不同类型的文本，旨在解决教育领域中学生可能使用LLM生成文本的挑战。

The Generative Essay Detection in Education (GEDE) dataset was developed by the Faculty of Technology at Bielefeld University. It comprises over 900 student-written essays and more than 12,500 LLM-generated essays across various domains. This dataset is designed to evaluate the performance of detectors for LLM-generated text, covering multiple levels of textual contribution, ranging from fully human-written texts, LLM-modified versions, texts generated based on human-provided summaries, to completely LLM-generated content. Featuring rich content and diverse text types, the dataset aims to address the challenges posed by students' potential use of LLMs to generate texts in educational contexts.

提供机构：

比勒费尔德大学技术学院

创建时间：

2025-08-11

原始信息汇总

数据集概述：GEDE（Generative Essay Detection in Education）

数据集来源

基于三个文本语料库构建：
1. Annotated Argumentative Essays（需手动下载或通过脚本database/add_aae_to_database.py导入）
2. BAWE（British Academic Written English Corpus）
3. PERSUADE 2.0

数据获取方式

主数据集：存储在SQLite数据库database/database.db中
CSV版本：可通过运行database/export_to_csv.py脚本生成
补充材料：包含数据集统计、LLM提示词等，位于supplementary-material/Paper-Appendix.pdf

实验支持

预置检测器：Detect-GPT、Fast-DetectGPT、Intrinsic-Dim、Ghostbuster、RoBERTa、GPT-Zero
自定义检测器：可通过继承Detector类实现（见detectors/detector_interface.py）
运行参数：支持模型选择、数据集路径、提示模式等21项可配置参数

评估与可视化

通过evaluation/generate_all_plots.sh脚本生成所有实验结果图表
评估脚本位于evaluate/目录

许可信息

许可证类型：CC BY-NC-SA 4.0
许可链接：https://creativecommons.org/licenses/by-nc-sa/4.0/deed.en

引用文献

Argument Annotated Essays (Stab & Gurevych, 2017)
BAWE Corpus (Nesi et al., 2008)
PERSUADE 2.0 (Crossley et al., 2024)

搜集汇总

数据集介绍

构建方式

在教育领域中，大型语言模型（LLMs）的广泛应用引发了学术诚信的新挑战。为应对这一问题，Generative Essay Detection in Education (GEDE)数据集应运而生。该数据集通过整合三个公开可用的学生写作语料库（AAE、PERSUADE和BAWE），收集了916篇学生撰写的论文，并基于826个独特任务描述生成了超过12,500篇由GPT-4o-mini和Llama-3.3-70b生成的论文。数据集的构建特别关注了学生贡献的不同水平，从完全由学生撰写的文本到由LLM生成并经过人工修改的文本，涵盖了LLM在教育中的多样化应用场景。

特点

GEDE数据集的一个显著特点是其对学生贡献水平的细致划分，共定义了八个不同的贡献级别，从完全由学生撰写的文本到由LLM生成并经过人工修改的文本。这种划分不仅涵盖了LLM在教育中的多样化应用场景，还为研究LLM生成文本的检测提供了丰富的实验数据。此外，数据集还包含了由不同生成模型（GPT-4o-mini和Llama-3.3-70b）生成的文本，进一步增强了数据的多样性和代表性。

使用方法

GEDE数据集主要用于评估和比较不同LLM生成文本检测方法在教育环境中的性能。研究人员可以使用该数据集来测试零样本检测方法（如DetectGPT和Fast-DetectGPT）和监督学习方法（如Ghostbuster和RoBERTa）在不同贡献级别和生成模型上的表现。此外，数据集还可用于研究文本长度、生成模型多样性以及不同阈值优化策略对检测性能的影响。通过公开数据集和代码，GEDE为后续研究提供了一个可靠的基准平台。

背景与挑战

背景概述

Generative Essay Detection in Education (GEDE)数据集由Bielefeld大学的Lukas Gehring和Benjamin Paaßen于2025年创建，旨在解决教育领域中大型语言模型（LLM）生成文本的检测问题。随着LLM（如ChatGPT）的普及，学生在学术作业中使用这些工具生成文本的现象日益普遍，对学术诚信和教育评估构成了挑战。GEDE数据集包含超过900篇学生撰写的论文和12,500篇由不同LLM生成的论文，涵盖了从完全由学生撰写到完全由LLM生成以及中间各种贡献水平的文本。该数据集的创建为研究LLM生成文本的检测提供了重要的基准，推动了教育领域中学术诚信保护的技术发展。

当前挑战

GEDE数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，检测LLM生成文本的难度在于区分学生部分使用LLM修改的文本与完全由学生撰写的文本，尤其是在中间贡献水平（如LLM轻微修改的文本）上，现有检测器的准确率显著下降。此外，检测器容易产生误报，这在教育环境中可能对学生的学术生涯产生严重影响。在构建过程中，挑战包括收集多样化的真实学生论文、定义和生成不同贡献水平的文本，以及确保数据集的代表性和平衡性。此外，对抗性攻击（如学生使用工具“人性化”LLM生成的文本）进一步增加了数据集的复杂性和检测的难度。

常用场景

经典使用场景

在教育领域中，Generative Essay Detection in Education (GEDE) 数据集被广泛用于评估和比较不同大语言模型（LLM）生成文本检测方法的性能。该数据集包含超过900篇学生手写论文和12,500篇由不同LLM生成的论文，涵盖了从完全由学生撰写的文本到完全由LLM生成的文本，以及经过不同程度修改的中间状态文本。这一多样性使得GEDE成为研究LLM生成文本检测的理想测试平台，特别是在学术诚信和自动评分系统的开发中。

解决学术问题

GEDE数据集解决了教育领域中一个关键问题：如何准确识别学生作业中LLM生成的内容，以维护学术诚信。通过引入“贡献水平”概念，该数据集帮助研究者理解学生在文本生成过程中的参与程度，从而更精确地评估检测方法的性能。此外，GEDE揭示了现有检测器在识别中间贡献水平文本时的局限性，尤其是对轻微修改的文本容易产生误报，这对教育实践中的公平性提出了重要警示。

衍生相关工作

GEDE数据集已经催生了多项相关研究，特别是在LLM生成文本检测领域。例如，基于GEDE的研究提出了Fast-DetectGPT等新型检测方法，这些方法在速度和准确性上均有显著提升。此外，GEDE还被用于探索不同生成模型（如GPT-4和Llama-3）生成的文本在检测难度上的差异，为后续研究提供了宝贵的数据支持。这些衍生工作进一步推动了教育领域中AI生成文本检测技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集