five

Hello-SimpleAI/HC3|自然语言处理数据集|人工智能对话系统数据集

收藏
hugging_face2023-01-21 更新2024-03-04 收录
自然语言处理
人工智能对话系统
下载链接:
https://hf-mirror.com/datasets/Hello-SimpleAI/HC3
下载链接
链接失效反馈
资源简介:
我们提出了首个名为HC3的人类-ChatGPT比较数据集,用于评估ChatGPT与人类专家的接近程度。该数据集支持文本分类、问答、句子相似度和零样本分类等任务,包含英语和中文数据,大小介于10K到100K之间,遵循CC-BY-SA-4.0许可证。
提供机构:
Hello-SimpleAI
原始信息汇总

数据集概述

数据集名称

  • Human ChatGPT Comparison Corpus (HC3)

数据集任务类别

  • 文本分类
  • 问答
  • 句子相似度
  • 零样本分类

支持语言

  • 英语
  • 中文

标签

  • ChatGPT
  • SimpleAI
  • 检测
  • OOD

数据集大小

  • 10K<n<100K

许可证

  • CC-BY-SA-4.0

数据集版权

  • 如果源数据集的许可证比CC-BY-SA更严格,则遵循源数据集的许可证;否则,遵循CC-BY-SA许可证。

引用信息

  • 论文标题:How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection
  • 作者:Guo, Biyang 等
  • 年份:2023
  • 预印本链接:arXiv:2301.07597
AI搜集汇总
数据集介绍
main_image_url
构建方式
HC3数据集的构建旨在创建一个可供比较人类专家与ChatGPT性能的语料库。该数据集通过精心挑选和设计,涵盖了文本分类、问题回答、句子相似度和零样本分类等多个任务类别,其中语言涵盖了英文和中文。构建过程中,数据集严格遵循了相应的版权法规,确保了数据使用的合法性和合规性。
特点
HC3数据集的特点在于其独特的人类与人工智能对比分析设计,提供了10K至100K规模的数据量,足以支持多种自然语言处理任务的研究。数据集的标签包含了ChatGPT、SimpleAI、检测和OOD等,这些标签有助于研究人员快速定位到数据集的特定用途。此外,数据集遵循CC-BY-SA 4.0协议,保证了数据的开放性和共享性。
使用方法
使用HC3数据集,研究者可以依据数据集中的任务类别和语言进行相应的自然语言处理研究。数据集的获取和引用需遵循其开放版权协议,同时建议用户在研究和论文中引用相关论文,以完整展现数据集的学术背景和研究价值。具体使用时,用户可通过数据集提供的GitHub链接获取代码、模型和分析结果,以便更深入地进行研究和应用。
背景与挑战
背景概述
在人工智能领域的自然语言处理任务中,评估机器生成文本与人类专家水平的接近程度是一项关键的研究课题。为此,Hello-SimpleAI团队于2023年提出了HC3数据集,该数据集是人类与ChatGPT对话输出的比较语料库。HC3的构建旨在为文本分类、问题回答、句子相似度以及零样本分类等任务提供评价标准,其语言覆盖英文和中文。该数据集的推出,对于理解高级对话系统的性能,以及促进自然语言生成技术的进步具有显著影响。
当前挑战
HC3数据集在构建过程中面临着多重挑战。首先,确保数据质量与一致性是一项艰巨的任务,因为需要精确地区分人类与机器生成的文本。其次,数据集的规模与多样性对于模型的泛化能力至关重要,而在此规模下的数据收集与标注工作极具挑战。此外,构建有效的评价体系来量化机器与人类专家之间的差异,也是HC3数据集需要解决的关键问题。
常用场景
经典使用场景
在自然语言处理领域,HC3数据集以其独特的设计理念成为研究的热点。该数据集主要用于文本分类、问题回答、句子相似性以及零样本分类等任务。其经典使用场景在于,通过对ChatGPT生成文本与人类专家回答的比较,评估模型的表现,进而提升自然语言生成模型的准确性、流畅性和逻辑性。
实际应用
在实用层面,HC3数据集的应用场景广泛,不仅能够用于训练和评估聊天机器人、智能客服等AI应用,还可以在内容审核、情感分析等领域发挥作用,提高相关系统的智能化水平和服务质量。
衍生相关工作
HC3数据集的推出,激发了学术界对人工智能生成内容与人类创作差异性的深入探讨,衍生出了一系列相关研究。这些研究涉及模型的可解释性、生成文本的多样性以及人工智能伦理等方面,为人工智能领域的发展提供了新的研究方向和思考视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录