five

Hello-SimpleAI/HC3|自然语言处理数据集|人工智能对话系统数据集

收藏
hugging_face2023-01-21 更新2024-03-04 收录
自然语言处理
人工智能对话系统
下载链接:
https://hf-mirror.com/datasets/Hello-SimpleAI/HC3
下载链接
链接失效反馈
资源简介:
--- task_categories: - text-classification - question-answering - sentence-similarity - zero-shot-classification language: - en - zh tags: - ChatGPT - SimpleAI - Detection - OOD size_categories: - 10K<n<100K license: cc-by-sa-4.0 --- # Human ChatGPT Comparison Corpus (HC3) We propose the first human-ChatGPT comparison corpus, named **HC3** dataset. This dataset is introduced in our paper: - Paper: [***How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection***](https://arxiv.org/abs/2301.07597) Code, models and analysis are available on our GitHub: - GitHub: [**Chatgpt-Comparison-Detection project** 🔬](https://github.com/Hello-SimpleAI/chatgpt-comparison-detection) # Dataset Copyright If the source datasets used in this corpus has a specific license which is stricter than CC-BY-SA, our products follow the same. If not, they follow CC-BY-SA license. See [dataset copyright](https://github.com/Hello-SimpleAI/chatgpt-comparison-detection#dataset-copyright). # Citation Checkout this papaer [arxiv: 2301.07597](https://arxiv.org/abs/2301.07597) ``` @article{guo-etal-2023-hc3, title = "How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection", author = "Guo, Biyang and Zhang, Xin and Wang, Ziyuan and Jiang, Minqi and Nie, Jinran and Ding, Yuxuan and Yue, Jianwei and Wu, Yupeng", journal={arXiv preprint arxiv:2301.07597} year = "2023", } ```
提供机构:
Hello-SimpleAI
原始信息汇总

数据集概述

数据集名称

  • Human ChatGPT Comparison Corpus (HC3)

数据集任务类别

  • 文本分类
  • 问答
  • 句子相似度
  • 零样本分类

支持语言

  • 英语
  • 中文

标签

  • ChatGPT
  • SimpleAI
  • 检测
  • OOD

数据集大小

  • 10K<n<100K

许可证

  • CC-BY-SA-4.0

数据集版权

  • 如果源数据集的许可证比CC-BY-SA更严格,则遵循源数据集的许可证;否则,遵循CC-BY-SA许可证。

引用信息

  • 论文标题:How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection
  • 作者:Guo, Biyang 等
  • 年份:2023
  • 预印本链接:arXiv:2301.07597
AI搜集汇总
数据集介绍
main_image_url
构建方式
HC3数据集的构建旨在创建一个可供比较人类专家与ChatGPT性能的语料库。该数据集通过精心挑选和设计,涵盖了文本分类、问题回答、句子相似度和零样本分类等多个任务类别,其中语言涵盖了英文和中文。构建过程中,数据集严格遵循了相应的版权法规,确保了数据使用的合法性和合规性。
特点
HC3数据集的特点在于其独特的人类与人工智能对比分析设计,提供了10K至100K规模的数据量,足以支持多种自然语言处理任务的研究。数据集的标签包含了ChatGPT、SimpleAI、检测和OOD等,这些标签有助于研究人员快速定位到数据集的特定用途。此外,数据集遵循CC-BY-SA 4.0协议,保证了数据的开放性和共享性。
使用方法
使用HC3数据集,研究者可以依据数据集中的任务类别和语言进行相应的自然语言处理研究。数据集的获取和引用需遵循其开放版权协议,同时建议用户在研究和论文中引用相关论文,以完整展现数据集的学术背景和研究价值。具体使用时,用户可通过数据集提供的GitHub链接获取代码、模型和分析结果,以便更深入地进行研究和应用。
背景与挑战
背景概述
在人工智能领域的自然语言处理任务中,评估机器生成文本与人类专家水平的接近程度是一项关键的研究课题。为此,Hello-SimpleAI团队于2023年提出了HC3数据集,该数据集是人类与ChatGPT对话输出的比较语料库。HC3的构建旨在为文本分类、问题回答、句子相似度以及零样本分类等任务提供评价标准,其语言覆盖英文和中文。该数据集的推出,对于理解高级对话系统的性能,以及促进自然语言生成技术的进步具有显著影响。
当前挑战
HC3数据集在构建过程中面临着多重挑战。首先,确保数据质量与一致性是一项艰巨的任务,因为需要精确地区分人类与机器生成的文本。其次,数据集的规模与多样性对于模型的泛化能力至关重要,而在此规模下的数据收集与标注工作极具挑战。此外,构建有效的评价体系来量化机器与人类专家之间的差异,也是HC3数据集需要解决的关键问题。
常用场景
经典使用场景
在自然语言处理领域,HC3数据集以其独特的设计理念成为研究的热点。该数据集主要用于文本分类、问题回答、句子相似性以及零样本分类等任务。其经典使用场景在于,通过对ChatGPT生成文本与人类专家回答的比较,评估模型的表现,进而提升自然语言生成模型的准确性、流畅性和逻辑性。
实际应用
在实用层面,HC3数据集的应用场景广泛,不仅能够用于训练和评估聊天机器人、智能客服等AI应用,还可以在内容审核、情感分析等领域发挥作用,提高相关系统的智能化水平和服务质量。
衍生相关工作
HC3数据集的推出,激发了学术界对人工智能生成内容与人类创作差异性的深入探讨,衍生出了一系列相关研究。这些研究涉及模型的可解释性、生成文本的多样性以及人工智能伦理等方面,为人工智能领域的发展提供了新的研究方向和思考视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AlphaFold Protein Structure Database

AlphaFold是由Google DeepMind开发的AI系统,可从氨基酸序列预测蛋白质的三维结构,其准确性媲美实验方法。Google DeepMind与欧洲生物信息学研究所(EMBL-EBI)合作创建了AlphaFold Protein Structure Database,免费向科学界开放,现已涵盖超过2亿条UniProt蛋白序列,包含人类及47种重要生物的蛋白质组。

alphafold.com 收录

stanford_cars

该数据集是一个包含多个汽车品牌和型号的图片数据集,每个图片样本都标记有相应的汽车品牌和型号信息。数据集适用于图像识别和分类任务,特别是汽车品牌和型号的识别。

huggingface 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录