CHEAT

Name: CHEAT
Creator: 暨南大学
Published: 2024-02-24 13:52:28
License: 暂无描述

arXiv2024-02-24 更新2024-06-21 收录

下载链接：

https://github.com/botianzhe/CHEAT

下载链接

链接失效反馈

官方服务：

资源简介：

CHEAT数据集是由暨南大学研究团队创建的大规模数据集，专门用于检测由ChatGPT编写的摘要。该数据集包含35,304条合成摘要，主要分为生成、润色和混合三种类型。数据集的创建过程涉及使用ChatGPT从关键词生成摘要，以及对人类编写的摘要进行润色和混合处理。CHEAT数据集的应用领域主要集中在学术界，旨在解决ChatGPT生成内容对学术严谨性和原创性的潜在威胁，帮助开发有效的检测算法。

The CHEAT dataset is a large-scale dataset created by the research team from Jinan University, specifically designed for detecting summaries written by ChatGPT. This dataset contains 35,304 synthetic summaries, which are mainly categorized into three types: generated, polished, and mixed. The construction process of the dataset involves using ChatGPT to generate summaries from keywords, as well as polishing and mixing human-authored summaries. The CHEAT dataset is primarily applied in academic circles, aiming to address the potential threats posed by ChatGPT-generated content to academic rigor and originality, and assist in the development of effective detection algorithms.

提供机构：

暨南大学

创建时间：

2023-04-24

搜集汇总

数据集介绍

构建方式

在学术诚信面临人工智能生成文本挑战的背景下，CHEAT数据集的构建旨在为检测ChatGPT撰写的学术摘要提供大规模、多样化的数据支持。该数据集包含15,395篇人工撰写的摘要和35,304篇ChatGPT生成的摘要，人工摘要通过IEEE Xplore学术库，基于30个计算机科学领域关键词（如自然语言处理、机器学习等）检索获得。ChatGPT生成摘要则通过OpenAI接口，采用三种合成策略：基于标题和关键词的完全生成（Generation）、对人工摘要进行语言润色（Polish）以及将润色后摘要与人工摘要句子混合（Mix），以此模拟不同复杂度的合成场景，确保数据覆盖广泛且贴近实际滥用情况。

使用方法

该数据集主要用于开发和评估ChatGPT生成文本的检测算法。研究者可将其划分为训练集与测试集，用以训练基于深度学习的分类模型（如BERT、RoBERTa等），或验证传统特征检测方法的有效性。使用时可针对不同合成类型（生成、润色、混合）分别进行实验，以探究人机交互程度对检测性能的影响。数据集中的人工摘要可作为负样本，ChatGPT生成摘要作为正样本，支持二分类或多分类任务。此外，数据集提供的词汇与依存关系统计特征可用于辅助解释模型决策，增强检测算法的可解释性。

背景与挑战

背景概述

随着ChatGPT等大型语言模型在学术领域的广泛应用，其生成内容的真实性与原创性引发了学界的高度关注。为应对ChatGPT可能引发的学术不端行为，暨南大学的研究团队于2024年构建了CHEAT数据集，旨在为检测ChatGPT生成的学术摘要提供大规模数据支持。该数据集包含35,304篇由ChatGPT生成的摘要，涵盖直接生成、文本润色及混合文本等多种合成方式，聚焦于计算机科学领域的学术摘要检测。CHEAT的创建不仅填补了该领域大规模数据集的空白，还为深入研究生成文本的分布特征与检测算法提供了重要基础，对维护学术严谨性与推动人工智能伦理发展具有显著影响。

当前挑战

CHEAT数据集致力于解决ChatGPT生成学术摘要的检测问题，其核心挑战在于生成文本与人类撰写文本在语义分布上的高度相似性，尤其是经过人工润色或混合处理的文本，检测难度显著增加。现有检测算法在跨领域和跨文本类型上的泛化能力不足，难以有效识别经过优化的合成内容。在数据集构建过程中，研究团队面临合成文本多样性的挑战，需通过多种提示策略模拟真实滥用场景，同时确保数据规模与质量。此外，数据收集需平衡学术领域的覆盖范围与文本长度分布，以反映实际应用中的复杂性，这些因素共同构成了该数据集在推动检测技术发展中的关键难点。

常用场景

经典使用场景

在人工智能生成内容检测领域，CHEAT数据集为识别ChatGPT撰写的学术摘要提供了关键资源。该数据集通过生成、润色和混合三种合成方式，模拟了恶意用户可能利用大型语言模型伪造学术内容的多种场景。研究者可基于此数据集训练和评估检测模型，探索生成文本与人类撰写文本在词汇分布、句法结构等方面的细微差异，从而提升检测算法的准确性与鲁棒性。

解决学术问题

CHEAT数据集主要解决了学术诚信维护中的核心问题，即如何有效识别由AI生成的学术内容。它通过大规模标注数据，支持开发针对ChatGPT生成摘要的检测方法，弥补了现有检测工具在学术文本领域的数据空白。该数据集不仅促进了生成文本检测技术的发展，还为理解大型语言模型在学术写作中的行为模式提供了实证基础，对保障学术原创性与严谨性具有深远意义。

实际应用

在实际应用中，CHEAT数据集可被学术出版机构、教育机构和科研诚信监管部门用于构建自动化检测系统。这些系统能够辅助编辑和评审人员识别疑似由ChatGPT生成的论文摘要，从而遏制学术不端行为。此外，该数据集还可用于开发集成到学术写作平台中的实时检测工具，帮助作者自查文本原创性，维护学术研究的真实性与可靠性。

数据集最近研究