HC3 Plus
收藏github2024-04-03 更新2024-05-31 收录
下载链接:
https://github.com/suu990901/chatgpt-comparison-detection-HC3-Plus
下载链接
链接失效反馈官方服务:
资源简介:
为了填补HC3在语义不变任务中的空白,我们扩展了HC3,并提出了一个更大的ChatGPT生成文本数据集,涵盖翻译、总结和改写任务,称为HC3 Plus。
To fill the gap of HC3 in semantically invariant tasks, we extended HC3 and proposed a larger ChatGPT-generated text dataset covering translation, summarization, and paraphrasing tasks, named HC3 Plus.
创建时间:
2023-11-06
原始信息汇总
HC3 Plus 数据集概述
数据集构建
为了构建 HC3 语义不变性数据集,我们首先选择了几个广泛使用的高质量语料库,这些语料库由人工标注,涵盖翻译、摘要和释义任务。主要包含的数据集有:
然后,我们将 HC3 数据集合并,创建完整的 HC3 Plus 数据集。合并后的数据位于 data 目录。
数据集结构
数据集分为英语和中文两个部分,每个部分包含训练集、验证集和测试集。
英语数据集
train.jsonl: 训练集,包含 HC3-SI 和 HC3 数据集。val_hc3_si.sjonl: HC3-SI 数据集的验证集。val_hc3_QA.jsonl: HC3 数据集的验证集。test_hc3_si.sjonl: HC3-SI 数据集的测试集。test_hc3_QA.jsonl: HC3 数据集的测试集。
中文数据集
train.jsonl: 训练集,包含 HC3-SI 和 HC3 数据集。val_hc3_si.sjonl: HC3-SI 数据集的验证集。val_hc3_QA.jsonl: HC3 数据集的验证集。test_hc3_si.sjonl: HC3-SI 数据集的测试集。test_hc3_QA.jsonl: HC3 数据集的测试集。
搜集汇总
数据集介绍

构建方式
HC3 Plus数据集的构建旨在填补HC3在语义不变任务中的空白,通过扩展HC3数据集,涵盖了翻译、摘要和改写任务。该数据集首先选取了多个广泛使用且由人工标注的高质量语料库,包括CNN/DailyMail、Xsum、LCSTS、news2016和WMT等,并与HC3数据集合并,最终形成了完整的HC3 Plus数据集。数据集的构建过程确保了语义不变性,使其能够有效支持相关研究。
特点
HC3 Plus数据集的特点在于其广泛覆盖了多种语义不变任务,包括翻译、摘要和改写,且数据来源于多个高质量的人工标注语料库。数据集提供了英文和中文两种语言版本,分别包含训练集、验证集和测试集,确保了数据的多样性和全面性。此外,数据集的结构清晰,便于研究人员快速上手并进行模型训练与评估。
使用方法
HC3 Plus数据集的使用方法包括模型的训练与评估。对于英文和中文的检测模型,分别基于Tk-instruct和Roberta进行训练。用户可以通过运行提供的脚本命令进行模型训练,并使用测试脚本对模型进行评估。测试脚本支持基于Roberta和Tk-instruct的模型评估,用户只需指定数据路径和模型路径即可获得测试集上的评分。数据集的使用流程简洁明了,便于研究人员快速开展实验。
背景与挑战
背景概述
HC3 Plus数据集是在HC3数据集的基础上扩展而来,旨在填补HC3在语义不变任务中的空白。该数据集由多个高质量的人类标注语料库组成,涵盖了翻译、摘要和改写任务,主要数据集包括CNN/DailyMail、Xsum、LCSTS、news2016和WMT等。HC3 Plus的创建时间为2023年,由相关研究人员提出,并在arXiv上发布了详细的研究论文。该数据集的核心研究问题是如何在语义不变的任务中有效区分人类生成文本与ChatGPT生成文本,为自然语言处理领域提供了重要的研究资源,推动了生成文本检测技术的发展。
当前挑战
HC3 Plus数据集在解决生成文本检测问题时面临多重挑战。首先,语义不变任务要求模型能够在文本的语义保持不变的情况下,准确区分人类与ChatGPT生成的文本,这对模型的语义理解能力提出了极高的要求。其次,数据集的构建过程中,如何选择并整合多个高质量语料库,确保数据的多样性和代表性,也是一个复杂的技术难题。此外,跨语言(如英语和中文)的生成文本检测任务,需要模型具备跨语言泛化能力,这对模型的训练和评估提出了更高的要求。这些挑战共同构成了HC3 Plus数据集在研究和应用中的核心难点。
常用场景
经典使用场景
HC3 Plus数据集在自然语言处理领域中被广泛用于语义不变性任务的研究,特别是在翻译、摘要生成和文本复述等任务中。通过结合HC3数据集与其他高质量语料库,如CNN/DailyMail、Xsum和LCSTS,HC3 Plus提供了一个丰富的多任务数据集,能够有效支持模型在语义不变性任务中的训练与评估。
实际应用
在实际应用中,HC3 Plus数据集被用于训练和优化自然语言处理模型,特别是在机器翻译、自动摘要生成和文本复述等领域。通过该数据集训练的模型能够更好地理解并保持语义一致性,从而在实际场景中提供更准确、更流畅的语言处理服务,如智能客服、文档自动生成和多语言翻译系统。
衍生相关工作
基于HC3 Plus数据集,研究者们开发了多种语义不变性检测模型,如基于Roberta和Tk-instruct的检测器。这些模型在翻译、摘要和复述任务中表现出色,进一步推动了语义不变性研究的发展。此外,HC3 Plus还为后续研究提供了数据基础,催生了更多关于语义一致性和语言模型优化的研究工作。
以上内容由遇见数据集搜集并总结生成



