LinkSoul/instruction_merge_set

Name: LinkSoul/instruction_merge_set
Creator: LinkSoul
Published: 2023-10-25 10:39:46
License: 暂无描述

Hugging Face2023-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/LinkSoul/instruction_merge_set

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为instruction_merge_set，由多个子数据集合并而成，包括OIG、Dolly、UltraChat、Camel、ChatDoctor、GPT4ALL、GuanacoDataset、HC3、instinwild、Instruct-to-Code、ShareGPT90K、wealth-alpaca-lora、Alpaca、Baize、botbots、ChatAlpaca、DERA、GPTeacher、OpenAGI和presto等。每个子数据集都有详细的来源和描述，涵盖了从多轮对话到特定任务指令的广泛内容。数据集的特征包括id、conversations和instruction，其中conversations是一个列表，包含from和value两个字段。数据集分为train一个split，包含10077297个例子，总大小为13444870155字节。

提供机构：

LinkSoul

原始信息汇总

数据集概述

数据集信息

特征:
- id: 数据类型为字符串。
- conversations: 列表类型，包含以下子特征：
  - from: 数据类型为字符串。
  - value: 数据类型为字符串。
- instruction: 数据类型为字符串。
分割:
- train: 包含10077297个样本，总字节数为13444870155。
大小:
- 下载大小: 3542585235字节。
- 数据集大小: 13444870155字节。

构成数据集

OIG (unified-任务名称) 15k: Open Instruction Generalist Dataset。
Dolly databricks-dolly-15k: 由数千名Databricks员工生成的开源指令遵循记录数据集。
UltraChat: 多轮对话数据。
Camel: 包含25K个由两个gpt-3.5-turbo代理之间的对话。
ChatDoctor icliniq-15k HealthCareMagic-200k: 包含来自HealthCareMagic.com和iciniq-10k的真实患者与医生对话。
GPT4ALL: 数据集信息未详述。
GPT-4-LLM comparision_data_b alpaca_gpt4_data_zh comparision_data_a alpaca_gpt4_data 5k: 由GPT-4生成的英语和中文指令遵循数据，以及用于训练奖励模型的比较数据。
GuanacoDataset guanaco_chat_all-utf8 guanaco_non_chat-utf8 paper_answers-utf8 general_ans-utf8 general_questions-utf8 paper_questions-utf8 30k: 用于增强多语言能力和处理多种语言任务的数据集。
HC3 ALL: 人类与ChatGPT比较数据集。
instinwild instinwild_en instinwild_ch 5k: 指令微调数据集集合。
Instruct-to-Code: 数据集信息未详述。
ShareGPT90K sg_90k_part2 sg_90k_part1: 包含90,000个通过ShareGPT API抓取的对话。
UltraChat ultrachat_material_release_230412 ultrachat_release_230407: 数据集信息未详述。
wealth-alpaca-lora final_dataset_clean 4.3k: 结合Stanford的Alpaca和FiQA，以及使用GPT3.5生成的1.3k对自定义数据。
Alpaca alpaca_data 5k: 用于指令微调的数据集。
Baize alpaca_chat_data medical_chat_data quora_chat_data stack_overflow_chat_data: 用于微调Alpaca模型的指令遵循数据。
botbots Reasoning flight_bookings medical_appointments travel_agency restaurants_mixed real_estate car_dealership home_maintenance, job_interview insurance_consultation: 16, hotels: 400, tech_support: 32, car_rentals: 32, pet_care: 48, restaurants: 200, legal_consultation: 16, event_tickets: 240, fitness_personal_training: 16, scientific_problems: 100: 由两个ChatGPT实例之间的对话组成的数据集，涵盖广泛的情境和下游任务。
ChatAlpaca chatalpaca_data_10k: 多轮指令遵循对话数据集。
DERA train: 包含MedQA的开源问答版本。
GPTeacher Toolformer-dedupe-only-dataset roleplay-simple-deduped-roleplay-dataset gpt4-instruct-dedupe-only-dataset: 由GPT-4生成的模块化数据集集合。
OpenAGI: 数据集信息未详述。
presto: 用于解析现实任务导向对话的多语言数据集。

搜集汇总

数据集介绍

背景与挑战

背景概述

LinkSoul/instruction_merge_set是一个合并了20个知名子数据集的大型指令数据集，涵盖多轮对话和特定任务指令，包含1000多万个例子，数据总量达13.4GB。该数据集结构清晰，主要包含id、conversations和instruction三个特征字段。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集