five

LinkSoul/instruction_merge_set

收藏
Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LinkSoul/instruction_merge_set
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集名为instruction_merge_set,由多个子数据集合并而成,包括OIG、Dolly、UltraChat、Camel、ChatDoctor、GPT4ALL、GuanacoDataset、HC3、instinwild、Instruct-to-Code、ShareGPT90K、wealth-alpaca-lora、Alpaca、Baize、botbots、ChatAlpaca、DERA、GPTeacher、OpenAGI和presto等。每个子数据集都有详细的来源和描述,涵盖了从多轮对话到特定任务指令的广泛内容。数据集的特征包括id、conversations和instruction,其中conversations是一个列表,包含from和value两个字段。数据集分为train一个split,包含10077297个例子,总大小为13444870155字节。

本数据集名为instruction_merge_set,由多个子数据集合并而成,包括OIG、Dolly、UltraChat、Camel、ChatDoctor、GPT4ALL、GuanacoDataset、HC3、instinwild、Instruct-to-Code、ShareGPT90K、wealth-alpaca-lora、Alpaca、Baize、botbots、ChatAlpaca、DERA、GPTeacher、OpenAGI和presto等。每个子数据集都有详细的来源和描述,涵盖了从多轮对话到特定任务指令的广泛内容。数据集的特征包括id、conversations和instruction,其中conversations是一个列表,包含from和value两个字段。数据集分为train一个split,包含10077297个例子,总大小为13444870155字节。
提供机构:
LinkSoul
原始信息汇总

数据集概述

数据集信息

  • 特征:

    • id: 数据类型为字符串。
    • conversations: 列表类型,包含以下子特征:
      • from: 数据类型为字符串。
      • value: 数据类型为字符串。
    • instruction: 数据类型为字符串。
  • 分割:

    • train: 包含10077297个样本,总字节数为13444870155。
  • 大小:

    • 下载大小: 3542585235字节。
    • 数据集大小: 13444870155字节。

构成数据集

  • OIG (unified-任务名称) 15k: Open Instruction Generalist Dataset。
  • Dolly databricks-dolly-15k: 由数千名Databricks员工生成的开源指令遵循记录数据集。
  • UltraChat: 多轮对话数据。
  • Camel: 包含25K个由两个gpt-3.5-turbo代理之间的对话。
  • ChatDoctor icliniq-15k HealthCareMagic-200k: 包含来自HealthCareMagic.com和iciniq-10k的真实患者与医生对话。
  • GPT4ALL: 数据集信息未详述。
  • GPT-4-LLM comparision_data_b alpaca_gpt4_data_zh comparision_data_a alpaca_gpt4_data 5k: 由GPT-4生成的英语和中文指令遵循数据,以及用于训练奖励模型的比较数据。
  • GuanacoDataset guanaco_chat_all-utf8 guanaco_non_chat-utf8 paper_answers-utf8 general_ans-utf8 general_questions-utf8 paper_questions-utf8 30k: 用于增强多语言能力和处理多种语言任务的数据集。
  • HC3 ALL: 人类与ChatGPT比较数据集。
  • instinwild instinwild_en instinwild_ch 5k: 指令微调数据集集合。
  • Instruct-to-Code: 数据集信息未详述。
  • ShareGPT90K sg_90k_part2 sg_90k_part1: 包含90,000个通过ShareGPT API抓取的对话。
  • UltraChat ultrachat_material_release_230412 ultrachat_release_230407: 数据集信息未详述。
  • wealth-alpaca-lora final_dataset_clean 4.3k: 结合Stanford的Alpaca和FiQA,以及使用GPT3.5生成的1.3k对自定义数据。
  • Alpaca alpaca_data 5k: 用于指令微调的数据集。
  • Baize alpaca_chat_data medical_chat_data quora_chat_data stack_overflow_chat_data: 用于微调Alpaca模型的指令遵循数据。
  • botbots Reasoning flight_bookings medical_appointments travel_agency restaurants_mixed real_estate car_dealership home_maintenance, job_interview insurance_consultation: 16, hotels: 400, tech_support: 32, car_rentals: 32, pet_care: 48, restaurants: 200, legal_consultation: 16, event_tickets: 240, fitness_personal_training: 16, scientific_problems: 100: 由两个ChatGPT实例之间的对话组成的数据集,涵盖广泛的情境和下游任务。
  • ChatAlpaca chatalpaca_data_10k: 多轮指令遵循对话数据集。
  • DERA train: 包含MedQA的开源问答版本。
  • GPTeacher Toolformer-dedupe-only-dataset roleplay-simple-deduped-roleplay-dataset gpt4-instruct-dedupe-only-dataset: 由GPT-4生成的模块化数据集集合。
  • OpenAGI: 数据集信息未详述。
  • presto: 用于解析现实任务导向对话的多语言数据集。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
LinkSoul/instruction_merge_set是一个合并了20个知名子数据集的大型指令数据集,涵盖多轮对话和特定任务指令,包含1000多万个例子,数据总量达13.4GB。该数据集结构清晰,主要包含id、conversations和instruction三个特征字段。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作