Generated and Real Academic Corpus for Evaluation (GRACE)

Name: Generated and Real Academic Corpus for Evaluation (GRACE)
Creator: 卡塔尔计算研究所, 卡塔尔大学, TOBB ETU, 哈马德·本·哈利法大学
Published: 2024-12-24 16:33:44
License: 暂无描述

arXiv2024-12-24 更新2024-12-26 收录

下载链接：

http://arxiv.org/abs/2412.18274v1

下载链接

链接失效反馈

官方服务：

资源简介：

GRACE数据集是一个用于检测学术论文是由AI生成还是人类撰写的多语言数据集，包含英语和阿拉伯语的人类撰写和AI生成的论文。数据集的设计旨在确保内容的多样性和真实性，涵盖了不同的学术水平和文化背景。人类撰写的论文主要来源于语言评估考试如IELTS和TOEFL，而AI生成的论文则使用了多种先进的LLM模型生成。该数据集的应用领域主要集中在学术诚信和AI生成文本检测，旨在解决AI生成文本在学术环境中的滥用问题。

The GRACE dataset is a multilingual dataset for detecting whether academic papers are AI-generated or human-written. It contains human-written and AI-generated papers in English and Arabic. The dataset is designed to ensure content diversity and authenticity, covering different academic levels and cultural backgrounds. The human-written papers are mainly sourced from language proficiency tests such as IELTS and TOEFL, while the AI-generated papers are created using multiple advanced large language models (LLMs). The primary application fields of this dataset focus on academic integrity and AI-generated text detection, aiming to address the abuse of AI-generated texts in academic environments.

提供机构：

卡塔尔计算研究所, 卡塔尔大学, TOBB ETU, 哈马德·本·哈利法大学

创建时间：

2024-12-24

搜集汇总

数据集介绍

构建方式

GRACE数据集的构建过程分为开发阶段和评估阶段。在开发阶段，数据集通过收集人类撰写的学术论文和利用多种大型语言模型（如GPT-3.5、GPT-4、Llama-3等）生成AI撰写的论文来构建。人类撰写的论文主要来源于语言评估数据集，如IELTS和TOEFL，确保其真实性和多样性。AI生成的论文则通过设计详细的提示词来模拟人类写作风格，涵盖不同的学术水平和语言背景。在评估阶段，GRACE数据集进一步扩展，通过招募大学生撰写论文，并使用LLM进行自由生成和改写人类撰写的论文，以确保数据集的多样性和挑战性。

特点

GRACE数据集的特点在于其涵盖了英语和阿拉伯语两种语言，且包含了人类撰写和AI生成的学术论文。数据集的设计注重多样性和真实性，涵盖了不同的学术水平、文化背景和写作风格。AI生成的论文通过多种先进的LLM生成，模拟了人类写作的复杂性和多样性。此外，数据集还通过匿名化处理确保了作者隐私，符合伦理标准。GRACE数据集的平衡性和多样性使其成为检测AI生成文本的理想工具，尤其是在学术诚信领域。

使用方法

GRACE数据集的使用方法主要包括训练和评估文本检测模型。在开发阶段，数据集被分为训练集、验证集和开发测试集，供参与者训练和优化模型。在评估阶段，参与者使用最终的测试集进行模型评估，并通过Codalab平台提交预测结果。评估指标包括准确率、宏精确率、召回率和F1分数，其中宏F1分数作为官方排名依据。参与者主要使用基于Transformer的模型进行微调，并结合风格特征和语言复杂性等额外特征来提升检测性能。GRACE数据集的使用不仅推动了AI生成文本检测技术的发展，还为学术诚信领域的研究提供了重要支持。

背景与挑战

背景概述

Generated and Real Academic Corpus for Evaluation (GRACE) 数据集由卡塔尔计算研究所（QCRI）等机构的研究团队于2024年创建，旨在解决生成式人工智能（GenAI）在学术领域中的滥用问题，特别是机器生成与人类撰写的学术论文的区分。该数据集聚焦于英语和阿拉伯语两种语言，涵盖了不同学术水平和文化背景的论文，旨在为学术界提供一个可靠的基准，以检测AI生成的文本。GRACE数据集的构建过程严格遵循了伦理标准，确保了数据的多样性和真实性。该数据集在COLING 2025的GenAI内容检测共享任务中首次亮相，吸引了全球99个团队的关注，显著推动了AI生成文本检测领域的研究进展。

当前挑战

GRACE数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，尽管现有的检测方法在区分AI生成与人类撰写的文本上取得了显著进展，但AI生成文本的复杂性和多样性仍在不断增加，尤其是随着大型语言模型（LLMs）的不断进化，检测工具在应对高精度、低误报率的需求上仍面临巨大挑战。其次，在数据集构建过程中，研究团队需克服多重困难，包括确保人类撰写论文的真实性、保护作者隐私、以及获取多样化的样本以涵盖不同语言和文化背景。此外，AI生成文本的多样性和风格模仿能力也使得数据集的构建更加复杂，要求研究团队在设计生成提示和评估框架时具备高度的创造力和严谨性。

常用场景

经典使用场景

GRACE数据集在学术领域中被广泛用于检测机器生成与人类撰写的学术论文。通过提供大量的人类撰写和AI生成的学术论文样本，该数据集为研究人员提供了一个标准化的平台，用于开发和评估文本检测算法。特别是在自然语言处理领域，GRACE数据集被用于训练和测试基于Transformer的模型，以区分AI生成文本与人类撰写文本。

衍生相关工作

GRACE数据集催生了一系列相关研究工作，特别是在AI生成文本检测领域。基于该数据集，研究人员开发了多种先进的检测模型，如基于Transformer的模型和集成学习方法。例如，IntegrityAI团队通过微调ELECTRA模型，结合风格特征分析，显著提升了检测性能。CMI-AIGCX团队则利用Llama 2和Llama 3等大型语言模型，提出了多语言代理模型，进一步提高了检测的准确性和泛化能力。这些工作不仅推动了AI生成文本检测技术的发展，也为未来的研究提供了新的方向。

数据集最近研究