five

Hello-SimpleAI/HC3|自然语言处理数据集|人工智能对话系统数据集

收藏
hugging_face2023-01-21 更新2024-03-04 收录
自然语言处理
人工智能对话系统
下载链接:
https://hf-mirror.com/datasets/Hello-SimpleAI/HC3
下载链接
链接失效反馈
资源简介:
--- task_categories: - text-classification - question-answering - sentence-similarity - zero-shot-classification language: - en - zh tags: - ChatGPT - SimpleAI - Detection - OOD size_categories: - 10K<n<100K license: cc-by-sa-4.0 --- # Human ChatGPT Comparison Corpus (HC3) We propose the first human-ChatGPT comparison corpus, named **HC3** dataset. This dataset is introduced in our paper: - Paper: [***How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection***](https://arxiv.org/abs/2301.07597) Code, models and analysis are available on our GitHub: - GitHub: [**Chatgpt-Comparison-Detection project** 🔬](https://github.com/Hello-SimpleAI/chatgpt-comparison-detection) # Dataset Copyright If the source datasets used in this corpus has a specific license which is stricter than CC-BY-SA, our products follow the same. If not, they follow CC-BY-SA license. See [dataset copyright](https://github.com/Hello-SimpleAI/chatgpt-comparison-detection#dataset-copyright). # Citation Checkout this papaer [arxiv: 2301.07597](https://arxiv.org/abs/2301.07597) ``` @article{guo-etal-2023-hc3, title = "How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection", author = "Guo, Biyang and Zhang, Xin and Wang, Ziyuan and Jiang, Minqi and Nie, Jinran and Ding, Yuxuan and Yue, Jianwei and Wu, Yupeng", journal={arXiv preprint arxiv:2301.07597} year = "2023", } ```
提供机构:
Hello-SimpleAI
原始信息汇总

数据集概述

数据集名称

  • Human ChatGPT Comparison Corpus (HC3)

数据集任务类别

  • 文本分类
  • 问答
  • 句子相似度
  • 零样本分类

支持语言

  • 英语
  • 中文

标签

  • ChatGPT
  • SimpleAI
  • 检测
  • OOD

数据集大小

  • 10K<n<100K

许可证

  • CC-BY-SA-4.0

数据集版权

  • 如果源数据集的许可证比CC-BY-SA更严格,则遵循源数据集的许可证;否则,遵循CC-BY-SA许可证。

引用信息

  • 论文标题:How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection
  • 作者:Guo, Biyang 等
  • 年份:2023
  • 预印本链接:arXiv:2301.07597
AI搜集汇总
数据集介绍
main_image_url
构建方式
HC3数据集的构建旨在创建一个可供比较人类专家与ChatGPT性能的语料库。该数据集通过精心挑选和设计,涵盖了文本分类、问题回答、句子相似度和零样本分类等多个任务类别,其中语言涵盖了英文和中文。构建过程中,数据集严格遵循了相应的版权法规,确保了数据使用的合法性和合规性。
特点
HC3数据集的特点在于其独特的人类与人工智能对比分析设计,提供了10K至100K规模的数据量,足以支持多种自然语言处理任务的研究。数据集的标签包含了ChatGPT、SimpleAI、检测和OOD等,这些标签有助于研究人员快速定位到数据集的特定用途。此外,数据集遵循CC-BY-SA 4.0协议,保证了数据的开放性和共享性。
使用方法
使用HC3数据集,研究者可以依据数据集中的任务类别和语言进行相应的自然语言处理研究。数据集的获取和引用需遵循其开放版权协议,同时建议用户在研究和论文中引用相关论文,以完整展现数据集的学术背景和研究价值。具体使用时,用户可通过数据集提供的GitHub链接获取代码、模型和分析结果,以便更深入地进行研究和应用。
背景与挑战
背景概述
在人工智能领域的自然语言处理任务中,评估机器生成文本与人类专家水平的接近程度是一项关键的研究课题。为此,Hello-SimpleAI团队于2023年提出了HC3数据集,该数据集是人类与ChatGPT对话输出的比较语料库。HC3的构建旨在为文本分类、问题回答、句子相似度以及零样本分类等任务提供评价标准,其语言覆盖英文和中文。该数据集的推出,对于理解高级对话系统的性能,以及促进自然语言生成技术的进步具有显著影响。
当前挑战
HC3数据集在构建过程中面临着多重挑战。首先,确保数据质量与一致性是一项艰巨的任务,因为需要精确地区分人类与机器生成的文本。其次,数据集的规模与多样性对于模型的泛化能力至关重要,而在此规模下的数据收集与标注工作极具挑战。此外,构建有效的评价体系来量化机器与人类专家之间的差异,也是HC3数据集需要解决的关键问题。
常用场景
经典使用场景
在自然语言处理领域,HC3数据集以其独特的设计理念成为研究的热点。该数据集主要用于文本分类、问题回答、句子相似性以及零样本分类等任务。其经典使用场景在于,通过对ChatGPT生成文本与人类专家回答的比较,评估模型的表现,进而提升自然语言生成模型的准确性、流畅性和逻辑性。
实际应用
在实用层面,HC3数据集的应用场景广泛,不仅能够用于训练和评估聊天机器人、智能客服等AI应用,还可以在内容审核、情感分析等领域发挥作用,提高相关系统的智能化水平和服务质量。
衍生相关工作
HC3数据集的推出,激发了学术界对人工智能生成内容与人类创作差异性的深入探讨,衍生出了一系列相关研究。这些研究涉及模型的可解释性、生成文本的多样性以及人工智能伦理等方面,为人工智能领域的发展提供了新的研究方向和思考视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

QM9

QM9数据集包含134k个有机小分子化合物的量子化学计算结果,涵盖了12个量子化学性质,如分子能量、电离能、电子亲和能等。

quantum-machine.org 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

WorldClim

WorldClim is a website that contains a database of high spatial resolution global weather and climate data. This data can be used for mapping and spatial modeling. The data is provided for use in research and related activities. The website contains three types of data. First, ""historical climate data (WorldClim version 2.1)"" contains 19 “bioclimatic” variables related to temperature, precipitation, solar radiation, wind speed, and water vapor pressure. These data are available for 1970-2000 period at a spatial scale of ~1 km2 (30 seconds) gridded area. These data are constructed from multiple data sources. Second, the “Historical monthly weather data” contains historical monthly weather data for 1960-2018. These data are downscaled from CRU-TS-4.06 by the Climatic Research Unit, University of East Anglia, using WorldClim 2.1 for bias correction. The variables available are average minimum temperature (°C), average maximum temperature (°C) and total precipitation (mm). The lowest spatial resolution at which the data is available is 2.5 minutes (~21 km2 at the equator). Third, “Future climate data” contains CMIP6 downscaled future climate projections. The downscaling and calibration (bias correction) was done with WorldClim v2.1 as baseline climate. Monthly values of minimum temperature, maximum temperature, and precipitation were processed for 23 global climate models (GCMs), and for four Shared Socio-economic Pathways (SSPs): 126, 245, 370 and 585. The monthly values were averages over 20 year periods (2021-2040, 241-2060, 2061-2080, 2081-2100). The lowest spatial resolutions at which the data is available is 30 seconds.

DataCite Commons 收录