HC3

github2023-12-02 更新2024-05-31 收录

下载链接：

https://github.com/Hello-SimpleAI/chatgpt-comparison-detection

下载链接

链接失效反馈

资源简介：

我们提出了第一个 **Human vs. ChatGPT** 对比语料, 叫做 **HC3**。

本团队首度推出**人类与ChatGPT对比语料**，命名为**HC3**。

创建时间：

2023-01-07

原始信息汇总

数据集概述

人类-ChatGPT 问答对比语料集 (HC3)

名称: 人类-ChatGPT 问答对比语料集 (HC3)
描述: 首个 Human vs. ChatGPT 对比语料集，旨在比较人类与ChatGPT的问答表现。
版本: 第一版
可用性:
- 英文版: HC3-English
- 中文版: HC3-Chinese
- 中文社区: HC3-English 和 HC3-Chinese
版权: 遵循CC-BY-SA许可证，若源数据集有更严格的许可证，则遵循该许可证。

数据集组成

英文部分:
- 来源: 包括reddit_eli5, open_qa, wiki_csai, medicine, finance等。
- 许可证: 如BSD License, PWC Custom, CC-BY-SA等。
中文部分:
- 来源: 包括open_qa, baike, nlpcc_dbqa, medicine, finance, psychology, law等。
- 许可证: 如MIT License, CC-BY-NC 4.0, CC-BY 4.0, CC0等。

ChatGPT 内容检测器

类型:
- 问答版: 判断特定问题的回答是否由ChatGPT生成。
- 独立文本版: 判断单条文本是否由ChatGPT生成。
- 语言学版: 使用语言学特征判断文本是否由ChatGPT生成。
可用性:
- 英文版: 在🤗 Hugging Face Spaces上提供。
- 中文版: 在ModelScope中文社区平台提供。
模型权重:
- 英文模型: 基于roberta-base。
- 中文模型: 基于hfl/chinese-roberta-wwm-ext。

重要节点

项目启动: 2022-12-09
对比数据收集: 2022-12-11 至当前
检测器Demo发布: 2023-01-11
模型开源: 2023-01-18
语料集开源: 2023-01-18
研究论文发布: 2023-01-19

AI搜集汇总

数据集介绍

构建方式

HC3数据集的构建基于对人类与ChatGPT生成内容的对比，涵盖了多个领域，包括医学、金融、法律等。数据集通过整合多个公开数据源，如ELI5、WikiQA、Medical Dialog等，确保了数据的多样性和广泛性。每个领域的数据经过精心筛选和标注，形成了高质量的问答对比语料，旨在为研究者提供一个全面的基准，用于评估和检测ChatGPT生成内容的质量和可信度。

特点

HC3数据集的显著特点在于其双语支持，涵盖了英语和中文两种语言，为跨语言研究提供了丰富的资源。此外，数据集不仅包含问答对，还提供了单条文本的检测数据，使得研究者可以针对不同应用场景进行深入分析。数据集的多样性体现在其涵盖了多个专业领域，如医学、金融、法律等，为跨领域研究提供了坚实的基础。

使用方法

HC3数据集可以通过Huggingface Datasets平台或ModelScope平台进行访问和下载。研究者可以使用该数据集进行ChatGPT生成内容的检测和评估，通过对比人类与ChatGPT的回答，分析其差异和相似性。数据集提供了多种格式的数据，支持问答对和单条文本的检测，研究者可以根据具体需求选择合适的模型和方法进行实验和分析。

背景与挑战

背景概述

HC3数据集，全称为Human ChatGPT Comparison Corpus，是由一群来自多所大学和公司的研究人员于2022年12月9日启动的项目成果。该数据集的核心研究问题在于比较人类与ChatGPT生成的文本，旨在为相关领域的研究提供一个开放的对比语料库。HC3数据集的创建不仅推动了自然语言处理领域的发展，还为检测ChatGPT生成内容的开源模型提供了基础。该数据集的发布标志着在人工智能生成内容检测领域的重大进展，并为学术界和工业界提供了宝贵的研究资源。

当前挑战

HC3数据集在构建过程中面临多项挑战。首先，收集高质量的人类与ChatGPT生成的对比文本需要跨越多个领域，包括医学、金融、法律等，这要求数据集的构建者具备广泛的知识背景和数据获取能力。其次，确保数据集的多样性和代表性也是一个重要挑战，因为不同领域的语言风格和内容复杂度差异巨大。此外，数据集的版权和许可问题也需谨慎处理，以确保所有使用的数据源符合相应的法律和伦理标准。最后，开发有效的检测模型以区分人类和ChatGPT生成的内容，需要在模型精度和计算效率之间找到平衡，这对研究者的技术能力提出了高要求。

常用场景

经典使用场景

HC3数据集的核心应用场景在于其作为人类与ChatGPT生成内容之间的对比语料库，广泛用于自然语言处理领域的研究。通过提供人类与ChatGPT的问答对，研究者能够深入分析两者在语言表达、逻辑推理及知识覆盖等方面的差异，从而为模型优化和内容检测提供坚实的基础。

实际应用

在实际应用中，HC3数据集被广泛用于开发和验证内容检测工具，这些工具能够有效识别由ChatGPT生成的文本，从而在教育、新闻、法律等领域防止AI生成内容的滥用。此外，该数据集还支持语言模型的评估与改进，确保其在实际应用中的可靠性和准确性。

衍生相关工作

基于HC3数据集，研究者已开发出多种检测ChatGPT生成内容的模型和工具，如基于预训练语言模型（PLM）的分类器和语言学特征分析模型。这些工作不仅提升了内容检测的准确性，还为生成式AI的伦理和法律研究提供了重要参考，推动了相关领域的技术进步和规范制定。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集