five

vicgalle/alpaca-gpt4|自然语言处理数据集|机器学习数据集

收藏
hugging_face2024-02-10 更新2024-03-04 收录
自然语言处理
机器学习
下载链接:
https://hf-mirror.com/datasets/vicgalle/alpaca-gpt4
下载链接
链接失效反馈
资源简介:
该数据集包含由GPT-4生成的英文指令跟随数据,用于微调大型语言模型。数据集的结构与Alpaca数据相同,但输出由GPT-4生成。数据集包含52K个指令跟随数据,每个指令都是唯一的。数据集的特征包括instruction、input、output和text。与原始Alpaca数据集相比,该数据集使用GPT-4生成响应,因此响应质量更高且更详细。数据集适用于文本生成、对话和问答任务,语言为英语,大小类别为10K<n<100K,许可证为CC BY-NC 4.0。
提供机构:
vicgalle
原始信息汇总

数据集概述

基本信息

  • 数据集名称: alpaca-gpt4
  • 语言: 英语 (en)
  • 任务类别:
    • 文本生成
    • 对话系统
    • 问答系统
  • 大小类别: 10K<n<100K
  • 许可证: cc-by-nc-4.0
  • 标签:
    • gpt4
    • alpaca
    • instruction-finetuning
    • synthetic

数据集结构

  • 特征:
    • instruction: 字符串, 描述模型应执行的任务。每个指令都是唯一的。
    • input: 字符串, 任务的上下文或输入, 可选。
    • output: 字符串, 由GPT-4生成的指令答案。
    • text: 字符串, 包括所有前述字段以及Alpaca中使用的相同提示。

数据集大小

  • 训练集:
    • 示例数量: 52002
    • 字节数: 88566301
  • 下载大小: 48393562
  • 数据集总大小: 88566301

数据集特点

  • 包含52K由GPT-4生成的指令遵循数据, 使用与Alpaca相同的提示。
  • 与原始Alpaca数据集相比, 使用GPT-4生成输出, 通常响应质量更高, 长度更长。
AI搜集汇总
数据集介绍
main_image_url
构建方式
vicgalle/alpaca-gpt4数据集是由GPT-4模型根据Alpaca提示生成的英语指令遵循数据构成的。该数据集采用Alpaca数据格式,以GPT-4生成的输出替代原Alpaca数据中的文本完成,包含52,000条独特的指令遵循数据。数据集由四个字段组成:指令描述、可选输入上下文、GPT-4生成的输出以及所有字段合并后的文本。
特点
该数据集的主要特点是采用GPT-4模型生成的输出,相较于原Alpaca数据集使用的text-davinci-003模型,其响应质量和长度均有显著提升。数据集适用于文本生成、对话和问答等任务,遵循Creative Commons NonCommercial (CC BY-NC 4.0)许可,保证了数据的合法使用和共享。
使用方法
使用vicgalle/alpaca-gpt4数据集时,用户可以从Hugging Face的数据集库中直接加载。该数据集支持训练和微调大型语言模型,特别是在指令遵循和文本生成方面表现优异。用户可以根据具体的应用场景,对数据进行相应的预处理和后处理,以发挥数据集的最大潜力。
背景与挑战
背景概述
vicgalle/alpaca-gpt4数据集,起源于对大型语言模型进行指令微调的研究需求,旨在通过GPT-4生成遵循指令的文本。该数据集由52,000条独特的指令组成,最初由Instruction-Tuning-with-GPT-4研究团队在2023年公开分享,相关研究论文亦在arXiv.org上发表。数据集的核心研究问题是如何提高大型语言模型对人类指令的理解和执行能力,其对自然语言处理领域,特别是在指令微调与生成模型研究领域产生了显著影响。
当前挑战
数据集构建过程中所面临的挑战主要包括:如何确保GPT-4生成的输出质量与长度均优于原始的Alpaca数据集,以及如何处理由于模型差异导致的响应差异。此外,数据集在遵循Creative Commons NonCommercial (CC BY-NC 4.0)许可的同时,还需解决商业化应用中可能出现的版权与合规性问题。
常用场景
经典使用场景
在自然语言处理领域,vicgalle/alpaca-gpt4数据集因其高质量与深度,被广泛用于指令微调的语言模型训练。该数据集通过GPT-4生成,包含52K条独特的指令跟随数据,不仅提供了指令与输入,还提供了由GPT-4生成的输出,为模型训练提供了全面的上下文信息。
解决学术问题
该数据集解决了学术研究中模型对复杂指令理解与执行的问题,它通过高质量的指令输出,提高了模型的泛化能力和响应的准确性,对于研究指令微调技术和评估大型语言模型性能具有重要的学术意义。
衍生相关工作
基于vicgalle/alpaca-gpt4数据集,研究者们开展了一系列相关的工作,如进一步探索指令微调的边界,提升模型对特定领域指令的理解能力,以及将此数据集应用于多模态交互等前沿领域的研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录