InstructionWild v1
收藏github2023-03-01 更新2025-01-17 收录
下载链接:
https://github.com/XueFuzhao/InstructionWild
下载链接
链接失效反馈资源简介:
The InstructionWild v1 dataset furnishes 52K instructions in both Chinese and English. Constructed using a modelgenerated approach, the dataset involves providing five example prompts to the model, which then generates new instructions along with corresponding responses. The dataset is intended for non-commercial research purposes.
InstructionWild v1数据集包含52000条中英双语指令。该数据集采用模型生成方法构建,其构建流程为向模型输入5个示例提示词,由模型生成全新的指令及对应的回复。本数据集仅可用于非商业性研究用途。
提供机构:
National University of Singapore
创建时间:
2023-03-01
原始信息汇总
Instruction in the Wild: A User-based Instruction Dataset
数据集概述
- 数据集名称: Instruction in the Wild
- 版本: v1 和 v2
- 数据量:
- v1: 429 条指令
- v2: 超过 110K 条高质量用户指令
- 语言: 英语和中文
- 数据来源: 从 ChatGPT 使用分享中收集的指令
- 数据格式: 与 Alpaca 数据集相同,无输入字段
数据集特点
- 多样性: 数据集中的指令非常多样化,涵盖了生成、开放式问答和头脑风暴等类型。
- 数据收集方法:
- v1: 从 Twitter 上抓取了 700 多条噪声指令,筛选出 429 条高质量指令。
- v2: 未使用自指导生成指令,所有指令均为用户生成。
- 数据标注: v2 版本中对部分指令进行了指令类型和特殊标签的标注。
数据集应用
- 模型训练: Colossal AI 使用该数据集训练了 ColossalChat 模型。
- 模型表现:
- 优点: 在生成、开放式问答和头脑风暴等指令类型上表现较好。
- 局限性:
- 缺乏计数能力、逻辑推理能力、多轮对话和角色扮演能力。
- 在安全性方面存在不足,无法完全遵守 OpenAI 的政策。
数据集对比
- 详细对比: 参见 comparison.md
未来计划
- 待完成: 更大的数据集
作者
引用
bibtex @misc{instructionwild, author = {Jinjie Ni and Fuzhao Xue and Kabir Jain and Mahir Hitesh Shah and Zangwei Zheng and Yang You }, title = {Instruction in the Wild: A User-based Instruction Dataset}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/XueFuzhao/InstructionWild}}, }
搜集汇总
数据集介绍

构建方式
InstructionWild v1数据集的构建过程主要依赖于从Twitter平台收集的用户生成指令。研究团队首先从Twitter上抓取了超过700条原始指令,随后通过筛选去除了噪声数据,最终保留了429条高质量的指令。与Alpaca数据集不同,该数据集无需人工标注输出,从而减少了人力成本。通过使用OpenAI API生成指令的响应,研究团队确保了数据的多样性和广泛性,涵盖了生成、开放式问答和头脑风暴等多种类型的指令。
特点
InstructionWild v1数据集的特点在于其多样性和高质量。数据集中的指令来源于真实用户的分享,涵盖了生成、开放式问答和头脑风暴等多种类型,反映了用户在实际使用中的需求。此外,数据集还提供了中英文双语版本,进一步扩展了其应用范围。尽管数据集规模相对较小,但其指令的多样性和真实性为模型训练提供了宝贵的资源。
使用方法
InstructionWild v1数据集的使用方法与Alpaca数据集保持一致,便于快速集成和应用。用户可以直接加载数据集,并利用其中的指令进行模型训练或评估。由于数据集中的指令不包含输入字段,用户可以根据需要自行设计输入格式。此外,数据集还提供了生成新指令的示例提示,用户可以通过OpenAI API进一步扩展数据集。该数据集特别适用于生成、开放式问答和头脑风暴等任务的模型训练。
背景与挑战
背景概述
InstructionWild v1数据集由Jinjie Ni、Fuzhao Xue等研究人员于2023年发布,旨在为大型语言模型(LLM)的研究提供更为丰富和多样化的指令数据。该数据集的创建背景源于指令微调(Instruction Tuning)在ChatGPT等模型中的关键作用。尽管OpenAI使用了用户生成的指令数据集,但这些数据并未公开。为此,研究团队从Twitter等平台收集了用户分享的指令,并通过OpenAI API生成响应,最终构建了包含429条高质量指令的v1版本。该数据集不仅支持英文,还提供了中文版本,显著提升了模型在生成、开放问答和头脑风暴等任务中的表现。
当前挑战
InstructionWild v1数据集在构建和应用过程中面临多重挑战。首先,数据收集过程中需要从大量噪声数据中筛选出高质量的指令,确保数据的多样性和实用性。其次,尽管数据集在生成和开放问答任务上表现优异,但在多轮对话、角色扮演、自我认知等复杂任务上仍存在明显不足。此外,基于LLaMA微调的模型在逻辑推理、计数能力和多语言处理方面表现欠佳,尤其是在非英语任务上的表现较差。数据集中缺乏总结能力、安全性和多轮对话的指令,进一步限制了模型的全面应用。这些挑战表明,未来需要在数据集的多样性和任务覆盖范围上进行进一步优化。
常用场景
经典使用场景
InstructionWild v1数据集在自然语言处理领域中被广泛用于指令微调任务。通过提供大量用户生成的指令,该数据集为研究人员提供了一个丰富的资源,用于训练和评估语言模型在生成、开放问答和头脑风暴等任务中的表现。其多样化的指令来源确保了模型能够处理多种语言和复杂场景,从而提升了模型的泛化能力。
解决学术问题
InstructionWild v1数据集解决了指令微调领域中的关键问题,即缺乏高质量、多样化的用户生成指令。通过从社交媒体平台(如Twitter)收集真实用户的指令,该数据集弥补了现有数据集中指令类型单一、覆盖面不足的缺陷。这不仅为研究人员提供了更全面的训练数据,还推动了语言模型在生成、开放问答等任务中的性能提升,为后续研究奠定了坚实基础。
衍生相关工作
InstructionWild v1数据集催生了一系列相关研究工作,其中最著名的是ColossalChat模型的开发。该模型结合了InstructionWild和Alpaca数据集,显著提升了生成和问答任务的性能。此外,该数据集还为多语言模型的研究提供了重要支持,推动了跨语言指令微调技术的发展,为后续研究提供了宝贵的实验数据和参考案例。
以上内容由遇见数据集搜集并总结生成



