five

BAAI/Infinity-Instruct

收藏
Hugging Face2024-07-22 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/BAAI/Infinity-Instruct
下载链接
链接失效反馈
官方服务:
资源简介:
Infinity Instruct数据集是一个大规模、高质量的指令数据集,旨在提升模型在文本生成任务中的表现。数据集包含两个主要类别:基础数据集(Foundational Dataset)和聊天数据集(Chat Dataset)。基础数据集包含从开源数据集中筛选的数百万条指令,用于提升模型在代码、数学等下游任务中的表现。聊天数据集则包含从高质量种子数据中演化而来的约100万条指令,用于提升模型在真实对话场景中的指令遵循能力。数据集支持多种语言(如英语和中文),并且规模在100万到1000万条指令之间。

The Infinity Instruct dataset is a large-scale, high-quality instruction dataset designed to enhance model performance in text generation tasks. The dataset consists of two main categories: the Foundational Dataset and the Chat Dataset. The Foundational Dataset contains millions of instructions selected from open-source datasets, aimed at improving model performance on challenging downstream tasks such as code and math. The Chat Dataset contains approximately 1 million instructions evolved from a small subset of high-quality seed data, designed to further improve the instruction-following ability of models in real conversation scenarios. The dataset supports multiple languages (e.g., English and Chinese) and has a scale ranging from 1 million to 10 million instructions.
提供机构:
BAAI
原始信息汇总

Infinity Instruct 数据集概述

基本信息

  • 任务类别: 文本生成
  • 语言: 英语、中文
  • 数据规模: 1M<n<10M

最新动态

  • 2024/06/21: 发布了 InfInstruct-Mistral-7B 0613 模型权重,在 AlpacaEval 2.0 上表现优于 Mixtral 8x7B v0.1、Gemini Pro 和 GPT-3.5,且无需 RLHF。
  • 2024/06/13: 分享了数据构建过程的中间结果(对应 InfInstruct-3M),最终版本包含 1000 万条指令,计划于 6 月底发布。

GPT-4 自动评估

模型 MT-Bench AlpacaEval2.0
InfInstruct-Mistral-7B 0613 8.1 25.5

下游任务性能

模型 MMLU GSM8K HumanEval HellaSwag 平均
InfInstruct-3M-Mistral-7B 62.9 78.1 50.6 84.8 69.1

数据集概览

  • 基础数据集: InfInstruct-3M
  • 聊天数据集: InfInstruct-0608, InfInstruct-0612, InfInstruct-0613

数据来源

  • 开源社区: 收集了大量开源数据,包括但不限于 OpenHermes-2.5、UltraInteract_sft、CodeBagel 等。

数据集详细信息

  • 原始数据集及其行数:
    • glaiveai/glaive-code-assistant-v3: 61699
    • Replete-AI/code_bagel_hermes-2.5: 383904
    • m-a-p/CodeFeedback-Filtered-Instruction: 60735
    • bigcode/self-oss-instruct-sc2-exec-filter-50k: 50467
    • codefuse-ai/CodeExercise-Python-27k: 27159
    • nickrosh/Evol-Instruct-Code-80k-v1: 53702
    • TIGER-Lab/MathInstruct: 140666
    • microsoft/orca-math-word-problems-200k: 198133
    • MetaMathQa: 295195
    • teknium/Openhermes-2.5: 847925
    • Selected subjective instructions: 1343888
    • 总计: 3463473

指令选择与生成

  • 高质量开源指令收集与标签系统: 收集并标记高质量开源指令集,用于识别内容分布和完成任务所需能力。
  • 信息指令选择: 选择需求多领域知识或能力的指令,以及长尾能力或高难度指令。
  • 数据进化策略生成指令: 基于 Evol-Instruct 方法扩展指令,使用 AI 助手生成多轮对话数据。
  • 模型能力缺陷诊断: 通过模型性能评估系统自动识别模型弱点,并针对性地合成新指令。

免责声明

  • 本项目资源仅限学术研究使用,不得用于商业目的。模型输出受随机性等因素影响,不保证准确性,项目不承担任何法律责任。
搜集汇总
数据集介绍
main_image_url
构建方式
BAAI/Infinity-Instruct数据集的构建基于大规模指令数据的收集与处理,旨在为模型提供高质量的指令调优数据。该数据集通过多源数据整合,涵盖了多种语言(如英语和中文),并经过精细的筛选与标注,确保数据的多样性和实用性。数据集的构建过程中,采用了先进的过滤技术,以提升数据的质量和模型的性能。
特点
BAAI/Infinity-Instruct数据集的主要特点在于其大规模和高多样性。数据集包含了数百万条指令实例,覆盖了多种语言和任务类别,特别适用于文本生成任务。此外,数据集采用了Parquet格式存储,便于高效的数据处理和分析。其开放的CC-BY-SA-4.0许可证确保了数据的广泛可用性和共享性。
使用方法
BAAI/Infinity-Instruct数据集可以通过Hugging Face的Datasets库进行加载和使用。用户可以根据需要选择不同的配置(如3M、7M等)来加载特定规模的数据。数据集支持多种数据处理库,如Dask、Polars等,便于进行大规模数据处理。用户可以通过简单的API调用来访问和处理数据,适用于各种文本生成和指令调优任务。
背景与挑战
背景概述
BAAI/Infinity-Instruct数据集由北京人工智能研究院(BAAI)创建,旨在解决大规模指令数据对模型性能提升的关键性问题。该数据集于2024年6月发布,主要研究人员和机构为BAAI,其核心研究问题是如何在高成本的限制下,构建高质量且大规模的指令数据集,以支持开源模型的微调。Infinity-Instruct的发布对自然语言处理领域具有重要意义,尤其是在文本生成任务中,为模型提供了丰富的指令数据,推动了开源社区在模型训练和优化方面的进展。
当前挑战
Infinity-Instruct数据集在构建过程中面临的主要挑战包括:1) 如何在高成本的限制下,生成并筛选出高质量的指令数据;2) 如何确保数据集的多样性和覆盖范围,以适应不同语言(如中文和英文)的需求;3) 如何处理大规模数据集的存储和处理问题,尤其是在数据量超过1000万条的情况下。此外,数据集的构建还需应对数据隐私和伦理问题,确保数据的使用不会对人类主体造成伤害。
常用场景
经典使用场景
BAAI/Infinity-Instruct数据集在自然语言处理领域中,主要用于大规模指令微调任务。该数据集通过提供高质量的指令数据,帮助模型在文本生成任务中表现更加精准和自然。其经典使用场景包括但不限于:基于指令的对话生成、文本摘要生成以及多轮对话系统中的指令遵循能力训练。
解决学术问题
该数据集解决了在自然语言生成任务中,模型对复杂指令理解不足的问题。通过提供大规模、高质量的指令数据,BAAI/Infinity-Instruct显著提升了模型在多任务场景下的泛化能力和指令遵循精度。这对于推动开放源模型在实际应用中的表现具有重要意义,尤其是在需要高度指令依赖的场景中。
衍生相关工作
基于BAAI/Infinity-Instruct数据集,研究者们开发了多种衍生工作,包括但不限于:基于该数据集的指令微调模型、多任务学习框架以及跨语言指令生成模型。这些工作进一步推动了自然语言处理技术在实际应用中的发展,尤其是在多语言环境和复杂指令处理方面,取得了显著的进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作