HC3 Plus

Name: HC3 Plus
Creator: 中国科学院信息工程研究所
Published: 2024-01-26 12:25:51
License: 暂无描述

arXiv2024-01-26 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2309.02731v2

下载链接

链接失效反馈

官方服务：

资源简介：

HC3 Plus是由中国科学院信息工程研究所创建的一个大规模数据集，专注于检测ChatGPT生成的文本。该数据集包含210,000条样本，涵盖翻译、总结和改写等多种语义不变任务。创建过程中，研究团队首先选取了多个高质量的人工标注数据集，然后使用ChatGPT生成目标文本。HC3 Plus旨在解决当前检测模型在语义不变任务上的识别难题，特别是在区分AI生成内容和人类编写内容方面的挑战。

HC3 Plus is a large-scale dataset created by the Institute of Information Engineering, Chinese Academy of Sciences, focusing on detecting ChatGPT-generated text. This dataset contains 210,000 samples, covering a variety of semantics-preserving tasks including translation, summarization, and paraphrasing. During its creation, the research team first selected multiple high-quality manually annotated datasets, then used ChatGPT to generate target texts. HC3 Plus aims to address the recognition challenges of current detection models on semantics-preserving tasks, particularly the challenge of distinguishing between AI-generated content and human-written content.

提供机构：

中国科学院信息工程研究所

创建时间：

2023-09-06

搜集汇总

数据集介绍

构建方式

HC3 Plus数据集的构建方法是首先选择了几个人类标注的高质量语料库，包括翻译、摘要和改写任务。然后，使用ChatGPT生成对应的目标文本。具体来说，数据集包括了CNN/DailyMail、Xsum、LCSTS、news2016和WMT等翻译数据集，以及HC3的改写数据。通过调用GPT-3.5-Turbo API生成目标文本，形成了HC3 Plus数据集，其规模大约是HC3的两倍。

使用方法

使用HC3 Plus数据集的方法是，首先将其与HC3数据集结合，然后在Tk-instruct模型上进行指令微调。通过在大量任务上微调，模型获得了良好的指令遵循能力。接着，在HC3 Plus数据集上进一步微调，以训练出能够检测ChatGPT生成内容的检测器。实验中，使用了RoBERTa基模型进行训练，并对比了不同数据集和模型的效果。

背景与挑战

背景概述

HC3 Plus数据集是在HC3基础上的扩展，由Zhenpeng Su、Xing Wu、Wei Zhou等研究人员于2023年提出。该数据集旨在解决当前检测器在处理语义不变性任务上的挑战，如摘要、翻译和释义等任务。HC3 Plus数据集涵盖了这些任务类型，并采用了大量任务指导细化的语言模型进行训练，以提高检测能力。该数据集的构建背景是当前AI生成内容的检测存在困难，尤其是在语义不变性任务上。

当前挑战

HC3 Plus数据集面临的挑战主要包括：1) 处理语义不变性任务的挑战，例如在摘要、翻译和释义任务中，模型需要考虑输入句子的语义细微差别；2) 构建过程中的挑战，例如选择合适的数据集进行训练，以及如何有效地结合HC3和HC3 SI数据集。此外，当前检测器在处理翻译数据时存在困难，因为ChatGPT生成的句子与目标句子在语义上高度相似，导致模型难以区分。

常用场景

经典使用场景

HC3 Plus数据集被广泛应用于检测大型语言模型生成的文本，特别是在语义不变的翻译、摘要和释义任务中。该数据集通过包含这些任务的样本，为训练和评估检测模型提供了丰富的资源。

解决学术问题

HC3 Plus数据集解决了现有检测模型在处理语义不变任务时的性能不佳问题，如翻译、摘要和释义任务。它通过提供大量的语义不变样本，帮助模型学习识别由大型语言模型生成的文本，从而提高了检测的准确性。

实际应用

在实际应用中，HC3 Plus数据集可以被用于训练检测模型，以识别社交媒体、新闻文章等领域的AI生成内容，帮助监督信息和提高信息来源的透明度。

数据集最近研究