InstructionWild v1|自然语言处理数据集|指令生成数据集

github2023-03-01 更新2025-01-17 收录

自然语言处理

指令生成

下载链接：

https://github.com/XueFuzhao/InstructionWild

下载链接

链接失效反馈

资源简介：

The InstructionWild v1 dataset furnishes 52K instructions in both Chinese and English. Constructed using a modelgenerated approach, the dataset involves providing five example prompts to the model, which then generates new instructions along with corresponding responses. The dataset is intended for non-commercial research purposes.

提供机构：

National University of Singapore

创建时间：

2023-03-01

原始信息汇总

Instruction in the Wild: A User-based Instruction Dataset

数据集概述

数据集名称: Instruction in the Wild
版本: v1 和 v2
数据量:
- v1: 429 条指令
- v2: 超过 110K 条高质量用户指令
语言: 英语和中文
数据来源: 从 ChatGPT 使用分享中收集的指令
数据格式: 与 Alpaca 数据集相同，无输入字段

数据集特点

多样性: 数据集中的指令非常多样化，涵盖了生成、开放式问答和头脑风暴等类型。
数据收集方法:
- v1: 从 Twitter 上抓取了 700 多条噪声指令，筛选出 429 条高质量指令。
- v2: 未使用自指导生成指令，所有指令均为用户生成。
数据标注: v2 版本中对部分指令进行了指令类型和特殊标签的标注。

数据集应用

模型训练: Colossal AI 使用该数据集训练了 ColossalChat 模型。
模型表现:
- 优点: 在生成、开放式问答和头脑风暴等指令类型上表现较好。
- 局限性:
  - 缺乏计数能力、逻辑推理能力、多轮对话和角色扮演能力。
  - 在安全性方面存在不足，无法完全遵守 OpenAI 的政策。

数据集对比

详细对比: 参见 comparison.md

未来计划

待完成: 更大的数据集

作者

引用

bibtex @misc{instructionwild, author = {Jinjie Ni and Fuzhao Xue and Kabir Jain and Mahir Hitesh Shah and Zangwei Zheng and Yang You }, title = {Instruction in the Wild: A User-based Instruction Dataset}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/XueFuzhao/InstructionWild}}, }

AI搜集汇总

数据集介绍

构建方式

InstructionWild v1数据集的构建过程主要依赖于从Twitter平台收集的用户生成指令。研究团队首先从Twitter上抓取了超过700条原始指令，随后通过筛选去除了噪声数据，最终保留了429条高质量的指令。与Alpaca数据集不同，该数据集无需人工标注输出，从而减少了人力成本。通过使用OpenAI API生成指令的响应，研究团队确保了数据的多样性和广泛性，涵盖了生成、开放式问答和头脑风暴等多种类型的指令。

特点

InstructionWild v1数据集的特点在于其多样性和高质量。数据集中的指令来源于真实用户的分享，涵盖了生成、开放式问答和头脑风暴等多种类型，反映了用户在实际使用中的需求。此外，数据集还提供了中英文双语版本，进一步扩展了其应用范围。尽管数据集规模相对较小，但其指令的多样性和真实性为模型训练提供了宝贵的资源。

使用方法

InstructionWild v1数据集的使用方法与Alpaca数据集保持一致，便于快速集成和应用。用户可以直接加载数据集，并利用其中的指令进行模型训练或评估。由于数据集中的指令不包含输入字段，用户可以根据需要自行设计输入格式。此外，数据集还提供了生成新指令的示例提示，用户可以通过OpenAI API进一步扩展数据集。该数据集特别适用于生成、开放式问答和头脑风暴等任务的模型训练。

背景与挑战

背景概述

InstructionWild v1数据集由Jinjie Ni、Fuzhao Xue等研究人员于2023年发布，旨在为大型语言模型（LLM）的研究提供更为丰富和多样化的指令数据。该数据集的创建背景源于指令微调（Instruction Tuning）在ChatGPT等模型中的关键作用。尽管OpenAI使用了用户生成的指令数据集，但这些数据并未公开。为此，研究团队从Twitter等平台收集了用户分享的指令，并通过OpenAI API生成响应，最终构建了包含429条高质量指令的v1版本。该数据集不仅支持英文，还提供了中文版本，显著提升了模型在生成、开放问答和头脑风暴等任务中的表现。

当前挑战

InstructionWild v1数据集在构建和应用过程中面临多重挑战。首先，数据收集过程中需要从大量噪声数据中筛选出高质量的指令，确保数据的多样性和实用性。其次，尽管数据集在生成和开放问答任务上表现优异，但在多轮对话、角色扮演、自我认知等复杂任务上仍存在明显不足。此外，基于LLaMA微调的模型在逻辑推理、计数能力和多语言处理方面表现欠佳，尤其是在非英语任务上的表现较差。数据集中缺乏总结能力、安全性和多轮对话的指令，进一步限制了模型的全面应用。这些挑战表明，未来需要在数据集的多样性和任务覆盖范围上进行进一步优化。

常用场景

经典使用场景

InstructionWild v1数据集在自然语言处理领域中被广泛用于指令微调任务。通过提供大量用户生成的指令，该数据集为研究人员提供了一个丰富的资源，用于训练和评估语言模型在生成、开放问答和头脑风暴等任务中的表现。其多样化的指令来源确保了模型能够处理多种语言和复杂场景，从而提升了模型的泛化能力。

解决学术问题

InstructionWild v1数据集解决了指令微调领域中的关键问题，即缺乏高质量、多样化的用户生成指令。通过从社交媒体平台（如Twitter）收集真实用户的指令，该数据集弥补了现有数据集中指令类型单一、覆盖面不足的缺陷。这不仅为研究人员提供了更全面的训练数据，还推动了语言模型在生成、开放问答等任务中的性能提升，为后续研究奠定了坚实基础。

衍生相关工作

InstructionWild v1数据集催生了一系列相关研究工作，其中最著名的是ColossalChat模型的开发。该模型结合了InstructionWild和Alpaca数据集，显著提升了生成和问答任务的性能。此外，该数据集还为多语言模型的研究提供了重要支持，推动了跨语言指令微调技术的发展，为后续研究提供了宝贵的实验数据和参考案例。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

Tropicos

Tropicos是一个全球植物名称数据库，包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护，旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

poi

本项目收集国内POI兴趣点，当前版本数据来自于openstreetmap。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像，这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景，如学校、停车场、道路和游乐场，在不同的光照条件下，包括白天和夜晚。

github 收录