HC3
收藏github2023-12-02 更新2024-05-31 收录
下载链接:
https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
下载链接
链接失效反馈资源简介:
我们提出了第一个 **Human vs. ChatGPT** 对比语料, 叫做 **HC3**。
本团队首度推出**人类与ChatGPT对比语料**,命名为**HC3**。
创建时间:
2023-01-07
原始信息汇总
数据集概述
人类-ChatGPT 问答对比语料集 (HC3)
- 名称: 人类-ChatGPT 问答对比语料集 (HC3)
- 描述: 首个 Human vs. ChatGPT 对比语料集,旨在比较人类与ChatGPT的问答表现。
- 版本: 第一版
- 可用性:
- 英文版: HC3-English
- 中文版: HC3-Chinese
- 中文社区: HC3-English 和 HC3-Chinese
- 版权: 遵循CC-BY-SA许可证,若源数据集有更严格的许可证,则遵循该许可证。
数据集组成
- 英文部分:
- 来源: 包括reddit_eli5, open_qa, wiki_csai, medicine, finance等。
- 许可证: 如BSD License, PWC Custom, CC-BY-SA等。
- 中文部分:
- 来源: 包括open_qa, baike, nlpcc_dbqa, medicine, finance, psychology, law等。
- 许可证: 如MIT License, CC-BY-NC 4.0, CC-BY 4.0, CC0等。
ChatGPT 内容检测器
- 类型:
- 问答版: 判断特定问题的回答是否由ChatGPT生成。
- 独立文本版: 判断单条文本是否由ChatGPT生成。
- 语言学版: 使用语言学特征判断文本是否由ChatGPT生成。
- 可用性:
- 英文版: 在🤗 Hugging Face Spaces上提供。
- 中文版: 在ModelScope中文社区平台提供。
- 模型权重:
- 英文模型: 基于roberta-base。
- 中文模型: 基于hfl/chinese-roberta-wwm-ext。
重要节点
- 项目启动: 2022-12-09
- 对比数据收集: 2022-12-11 至 当前
- 检测器Demo发布: 2023-01-11
- 模型开源: 2023-01-18
- 语料集开源: 2023-01-18
- 研究论文发布: 2023-01-19
AI搜集汇总
数据集介绍

构建方式
HC3数据集的构建基于对人类与ChatGPT生成内容的对比,涵盖了多个领域,包括医学、金融、法律等。数据集通过整合多个公开数据源,如ELI5、WikiQA、Medical Dialog等,确保了数据的多样性和广泛性。每个领域的数据经过精心筛选和标注,形成了高质量的问答对比语料,旨在为研究者提供一个全面的基准,用于评估和检测ChatGPT生成内容的质量和可信度。
特点
HC3数据集的显著特点在于其双语支持,涵盖了英语和中文两种语言,为跨语言研究提供了丰富的资源。此外,数据集不仅包含问答对,还提供了单条文本的检测数据,使得研究者可以针对不同应用场景进行深入分析。数据集的多样性体现在其涵盖了多个专业领域,如医学、金融、法律等,为跨领域研究提供了坚实的基础。
使用方法
HC3数据集可以通过Huggingface Datasets平台或ModelScope平台进行访问和下载。研究者可以使用该数据集进行ChatGPT生成内容的检测和评估,通过对比人类与ChatGPT的回答,分析其差异和相似性。数据集提供了多种格式的数据,支持问答对和单条文本的检测,研究者可以根据具体需求选择合适的模型和方法进行实验和分析。
背景与挑战
背景概述
HC3数据集,全称为Human ChatGPT Comparison Corpus,是由一群来自多所大学和公司的研究人员于2022年12月9日启动的项目成果。该数据集的核心研究问题在于比较人类与ChatGPT生成的文本,旨在为相关领域的研究提供一个开放的对比语料库。HC3数据集的创建不仅推动了自然语言处理领域的发展,还为检测ChatGPT生成内容的开源模型提供了基础。该数据集的发布标志着在人工智能生成内容检测领域的重大进展,并为学术界和工业界提供了宝贵的研究资源。
当前挑战
HC3数据集在构建过程中面临多项挑战。首先,收集高质量的人类与ChatGPT生成的对比文本需要跨越多个领域,包括医学、金融、法律等,这要求数据集的构建者具备广泛的知识背景和数据获取能力。其次,确保数据集的多样性和代表性也是一个重要挑战,因为不同领域的语言风格和内容复杂度差异巨大。此外,数据集的版权和许可问题也需谨慎处理,以确保所有使用的数据源符合相应的法律和伦理标准。最后,开发有效的检测模型以区分人类和ChatGPT生成的内容,需要在模型精度和计算效率之间找到平衡,这对研究者的技术能力提出了高要求。
常用场景
经典使用场景
HC3数据集的核心应用场景在于其作为人类与ChatGPT生成内容之间的对比语料库,广泛用于自然语言处理领域的研究。通过提供人类与ChatGPT的问答对,研究者能够深入分析两者在语言表达、逻辑推理及知识覆盖等方面的差异,从而为模型优化和内容检测提供坚实的基础。
实际应用
在实际应用中,HC3数据集被广泛用于开发和验证内容检测工具,这些工具能够有效识别由ChatGPT生成的文本,从而在教育、新闻、法律等领域防止AI生成内容的滥用。此外,该数据集还支持语言模型的评估与改进,确保其在实际应用中的可靠性和准确性。
衍生相关工作
基于HC3数据集,研究者已开发出多种检测ChatGPT生成内容的模型和工具,如基于预训练语言模型(PLM)的分类器和语言学特征分析模型。这些工作不仅提升了内容检测的准确性,还为生成式AI的伦理和法律研究提供了重要参考,推动了相关领域的技术进步和规范制定。
以上内容由AI搜集并总结生成



