five

HC3 Plus

收藏
arXiv2024-01-26 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2309.02731v2
下载链接
链接失效反馈
官方服务:
资源简介:
HC3 Plus是由中国科学院信息工程研究所创建的一个大规模数据集,专注于检测ChatGPT生成的文本。该数据集包含210,000条样本,涵盖翻译、总结和改写等多种语义不变任务。创建过程中,研究团队首先选取了多个高质量的人工标注数据集,然后使用ChatGPT生成目标文本。HC3 Plus旨在解决当前检测模型在语义不变任务上的识别难题,特别是在区分AI生成内容和人类编写内容方面的挑战。

HC3 Plus is a large-scale dataset created by the Institute of Information Engineering, Chinese Academy of Sciences, focusing on detecting ChatGPT-generated text. This dataset contains 210,000 samples, covering a variety of semantics-preserving tasks including translation, summarization, and paraphrasing. During its creation, the research team first selected multiple high-quality manually annotated datasets, then used ChatGPT to generate target texts. HC3 Plus aims to address the recognition challenges of current detection models on semantics-preserving tasks, particularly the challenge of distinguishing between AI-generated content and human-written content.
提供机构:
中国科学院信息工程研究所
创建时间:
2023-09-06
搜集汇总
数据集介绍
main_image_url
构建方式
HC3 Plus数据集的构建方法是首先选择了几个人类标注的高质量语料库,包括翻译、摘要和改写任务。然后,使用ChatGPT生成对应的目标文本。具体来说,数据集包括了CNN/DailyMail、Xsum、LCSTS、news2016和WMT等翻译数据集,以及HC3的改写数据。通过调用GPT-3.5-Turbo API生成目标文本,形成了HC3 Plus数据集,其规模大约是HC3的两倍。
使用方法
使用HC3 Plus数据集的方法是,首先将其与HC3数据集结合,然后在Tk-instruct模型上进行指令微调。通过在大量任务上微调,模型获得了良好的指令遵循能力。接着,在HC3 Plus数据集上进一步微调,以训练出能够检测ChatGPT生成内容的检测器。实验中,使用了RoBERTa基模型进行训练,并对比了不同数据集和模型的效果。
背景与挑战
背景概述
HC3 Plus数据集是在HC3基础上的扩展,由Zhenpeng Su、Xing Wu、Wei Zhou等研究人员于2023年提出。该数据集旨在解决当前检测器在处理语义不变性任务上的挑战,如摘要、翻译和释义等任务。HC3 Plus数据集涵盖了这些任务类型,并采用了大量任务指导细化的语言模型进行训练,以提高检测能力。该数据集的构建背景是当前AI生成内容的检测存在困难,尤其是在语义不变性任务上。
当前挑战
HC3 Plus数据集面临的挑战主要包括:1) 处理语义不变性任务的挑战,例如在摘要、翻译和释义任务中,模型需要考虑输入句子的语义细微差别;2) 构建过程中的挑战,例如选择合适的数据集进行训练,以及如何有效地结合HC3和HC3 SI数据集。此外,当前检测器在处理翻译数据时存在困难,因为ChatGPT生成的句子与目标句子在语义上高度相似,导致模型难以区分。
常用场景
经典使用场景
HC3 Plus数据集被广泛应用于检测大型语言模型生成的文本,特别是在语义不变的翻译、摘要和释义任务中。该数据集通过包含这些任务的样本,为训练和评估检测模型提供了丰富的资源。
解决学术问题
HC3 Plus数据集解决了现有检测模型在处理语义不变任务时的性能不佳问题,如翻译、摘要和释义任务。它通过提供大量的语义不变样本,帮助模型学习识别由大型语言模型生成的文本,从而提高了检测的准确性。
实际应用
在实际应用中,HC3 Plus数据集可以被用于训练检测模型,以识别社交媒体、新闻文章等领域的AI生成内容,帮助监督信息和提高信息来源的透明度。
数据集最近研究
最新研究方向
HC3 Plus数据集考虑了语义不变的翻译、摘要和释义任务,展示了当前检测器在语义不变任务上的困难。该研究引入了更广泛和综合的数据集,包括语义不变的任务,用于ChatGPT生成文本的检测,并基于Tk-instruct模型进行了指令微调,以训练更强大的检测器。
相关研究论文
  • 1
    HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus中国科学院信息工程研究所 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作