Generative Essay Detection in Education (GEDE)
收藏arXiv2025-08-11 更新2025-08-13 收录
下载链接:
https://github.com/lukasgehring/Assessing-LLM-Text-Detection-in-Educational-Contexts
下载链接
链接失效反馈官方服务:
资源简介:
Generative Essay Detection in Education (GEDE)数据集由比勒费尔德大学技术学院创建,包含900多篇学生撰写的论文和超过12500篇由各种领域生成的LLM生成的论文。该数据集旨在评估LLM生成文本检测器的性能,涵盖了从纯人工撰写文本到LLM改进版本、基于人类提供的摘要生成的文本,以及完全由LLM生成的文本等多个贡献水平。数据集内容丰富,涵盖了不同类型的文本,旨在解决教育领域中学生可能使用LLM生成文本的挑战。
The Generative Essay Detection in Education (GEDE) dataset was developed by the Faculty of Technology at Bielefeld University. It comprises over 900 student-written essays and more than 12,500 LLM-generated essays across various domains. This dataset is designed to evaluate the performance of detectors for LLM-generated text, covering multiple levels of textual contribution, ranging from fully human-written texts, LLM-modified versions, texts generated based on human-provided summaries, to completely LLM-generated content. Featuring rich content and diverse text types, the dataset aims to address the challenges posed by students' potential use of LLMs to generate texts in educational contexts.
提供机构:
比勒费尔德大学技术学院
创建时间:
2025-08-11
原始信息汇总
数据集概述:GEDE(Generative Essay Detection in Education)
数据集来源
- 基于三个文本语料库构建:
- Annotated Argumentative Essays(需手动下载或通过脚本
database/add_aae_to_database.py导入) - BAWE(British Academic Written English Corpus)
- PERSUADE 2.0
- Annotated Argumentative Essays(需手动下载或通过脚本
数据获取方式
- 主数据集:存储在SQLite数据库
database/database.db中 - CSV版本:可通过运行
database/export_to_csv.py脚本生成 - 补充材料:包含数据集统计、LLM提示词等,位于
supplementary-material/Paper-Appendix.pdf
实验支持
- 预置检测器:Detect-GPT、Fast-DetectGPT、Intrinsic-Dim、Ghostbuster、RoBERTa、GPT-Zero
- 自定义检测器:可通过继承
Detector类实现(见detectors/detector_interface.py) - 运行参数:支持模型选择、数据集路径、提示模式等21项可配置参数
评估与可视化
- 通过
evaluation/generate_all_plots.sh脚本生成所有实验结果图表 - 评估脚本位于
evaluate/目录
许可信息
- 许可证类型:CC BY-NC-SA 4.0
- 许可链接:https://creativecommons.org/licenses/by-nc-sa/4.0/deed.en
引用文献
- Argument Annotated Essays (Stab & Gurevych, 2017)
- BAWE Corpus (Nesi et al., 2008)
- PERSUADE 2.0 (Crossley et al., 2024)
搜集汇总
数据集介绍

构建方式
在教育领域中,大型语言模型(LLMs)的广泛应用引发了学术诚信的新挑战。为应对这一问题,Generative Essay Detection in Education (GEDE)数据集应运而生。该数据集通过整合三个公开可用的学生写作语料库(AAE、PERSUADE和BAWE),收集了916篇学生撰写的论文,并基于826个独特任务描述生成了超过12,500篇由GPT-4o-mini和Llama-3.3-70b生成的论文。数据集的构建特别关注了学生贡献的不同水平,从完全由学生撰写的文本到由LLM生成并经过人工修改的文本,涵盖了LLM在教育中的多样化应用场景。
特点
GEDE数据集的一个显著特点是其对学生贡献水平的细致划分,共定义了八个不同的贡献级别,从完全由学生撰写的文本到由LLM生成并经过人工修改的文本。这种划分不仅涵盖了LLM在教育中的多样化应用场景,还为研究LLM生成文本的检测提供了丰富的实验数据。此外,数据集还包含了由不同生成模型(GPT-4o-mini和Llama-3.3-70b)生成的文本,进一步增强了数据的多样性和代表性。
使用方法
GEDE数据集主要用于评估和比较不同LLM生成文本检测方法在教育环境中的性能。研究人员可以使用该数据集来测试零样本检测方法(如DetectGPT和Fast-DetectGPT)和监督学习方法(如Ghostbuster和RoBERTa)在不同贡献级别和生成模型上的表现。此外,数据集还可用于研究文本长度、生成模型多样性以及不同阈值优化策略对检测性能的影响。通过公开数据集和代码,GEDE为后续研究提供了一个可靠的基准平台。
背景与挑战
背景概述
Generative Essay Detection in Education (GEDE)数据集由Bielefeld大学的Lukas Gehring和Benjamin Paaßen于2025年创建,旨在解决教育领域中大型语言模型(LLM)生成文本的检测问题。随着LLM(如ChatGPT)的普及,学生在学术作业中使用这些工具生成文本的现象日益普遍,对学术诚信和教育评估构成了挑战。GEDE数据集包含超过900篇学生撰写的论文和12,500篇由不同LLM生成的论文,涵盖了从完全由学生撰写到完全由LLM生成以及中间各种贡献水平的文本。该数据集的创建为研究LLM生成文本的检测提供了重要的基准,推动了教育领域中学术诚信保护的技术发展。
当前挑战
GEDE数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,检测LLM生成文本的难度在于区分学生部分使用LLM修改的文本与完全由学生撰写的文本,尤其是在中间贡献水平(如LLM轻微修改的文本)上,现有检测器的准确率显著下降。此外,检测器容易产生误报,这在教育环境中可能对学生的学术生涯产生严重影响。在构建过程中,挑战包括收集多样化的真实学生论文、定义和生成不同贡献水平的文本,以及确保数据集的代表性和平衡性。此外,对抗性攻击(如学生使用工具“人性化”LLM生成的文本)进一步增加了数据集的复杂性和检测的难度。
常用场景
经典使用场景
在教育领域中,Generative Essay Detection in Education (GEDE) 数据集被广泛用于评估和比较不同大语言模型(LLM)生成文本检测方法的性能。该数据集包含超过900篇学生手写论文和12,500篇由不同LLM生成的论文,涵盖了从完全由学生撰写的文本到完全由LLM生成的文本,以及经过不同程度修改的中间状态文本。这一多样性使得GEDE成为研究LLM生成文本检测的理想测试平台,特别是在学术诚信和自动评分系统的开发中。
解决学术问题
GEDE数据集解决了教育领域中一个关键问题:如何准确识别学生作业中LLM生成的内容,以维护学术诚信。通过引入“贡献水平”概念,该数据集帮助研究者理解学生在文本生成过程中的参与程度,从而更精确地评估检测方法的性能。此外,GEDE揭示了现有检测器在识别中间贡献水平文本时的局限性,尤其是对轻微修改的文本容易产生误报,这对教育实践中的公平性提出了重要警示。
衍生相关工作
GEDE数据集已经催生了多项相关研究,特别是在LLM生成文本检测领域。例如,基于GEDE的研究提出了Fast-DetectGPT等新型检测方法,这些方法在速度和准确性上均有显著提升。此外,GEDE还被用于探索不同生成模型(如GPT-4和Llama-3)生成的文本在检测难度上的差异,为后续研究提供了宝贵的数据支持。这些衍生工作进一步推动了教育领域中AI生成文本检测技术的发展。
以上内容由遇见数据集搜集并总结生成



