BAAI/Infinity-Instruct

Name: BAAI/Infinity-Instruct
Creator: BAAI
Published: 2024-07-22 06:22:24
License: 暂无描述

Hugging Face2024-07-22 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/BAAI/Infinity-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

Infinity Instruct数据集是一个大规模、高质量的指令数据集，旨在提升模型在文本生成任务中的表现。数据集包含两个主要类别：基础数据集（Foundational Dataset）和聊天数据集（Chat Dataset）。基础数据集包含从开源数据集中筛选的数百万条指令，用于提升模型在代码、数学等下游任务中的表现。聊天数据集则包含从高质量种子数据中演化而来的约100万条指令，用于提升模型在真实对话场景中的指令遵循能力。数据集支持多种语言（如英语和中文），并且规模在100万到1000万条指令之间。

The Infinity Instruct dataset is a large-scale, high-quality instruction dataset designed to enhance model performance in text generation tasks. The dataset consists of two main categories: the Foundational Dataset and the Chat Dataset. The Foundational Dataset contains millions of instructions selected from open-source datasets, aimed at improving model performance on challenging downstream tasks such as code and math. The Chat Dataset contains approximately 1 million instructions evolved from a small subset of high-quality seed data, designed to further improve the instruction-following ability of models in real conversation scenarios. The dataset supports multiple languages (e.g., English and Chinese) and has a scale ranging from 1 million to 10 million instructions.

提供机构：

BAAI

原始信息汇总

Infinity Instruct 数据集概述

基本信息

任务类别: 文本生成
语言: 英语、中文
数据规模: 1M<n<10M

GPT-4 自动评估

模型	MT-Bench	AlpacaEval2.0
InfInstruct-Mistral-7B 0613	8.1	25.5

下游任务性能

模型	MMLU	GSM8K	HumanEval	HellaSwag	平均
InfInstruct-3M-Mistral-7B	62.9	78.1	50.6	84.8	69.1

数据集概览

基础数据集: InfInstruct-3M
聊天数据集: InfInstruct-0608, InfInstruct-0612, InfInstruct-0613

数据来源

开源社区: 收集了大量开源数据，包括但不限于 OpenHermes-2.5、UltraInteract_sft、CodeBagel 等。

数据集详细信息

原始数据集及其行数：
- glaiveai/glaive-code-assistant-v3: 61699
- Replete-AI/code_bagel_hermes-2.5: 383904
- m-a-p/CodeFeedback-Filtered-Instruction: 60735
- bigcode/self-oss-instruct-sc2-exec-filter-50k: 50467
- codefuse-ai/CodeExercise-Python-27k: 27159
- nickrosh/Evol-Instruct-Code-80k-v1: 53702
- TIGER-Lab/MathInstruct: 140666
- microsoft/orca-math-word-problems-200k: 198133
- MetaMathQa: 295195
- teknium/Openhermes-2.5: 847925
- Selected subjective instructions: 1343888
- 总计: 3463473

指令选择与生成

高质量开源指令收集与标签系统: 收集并标记高质量开源指令集，用于识别内容分布和完成任务所需能力。
信息指令选择: 选择需求多领域知识或能力的指令，以及长尾能力或高难度指令。
数据进化策略生成指令: 基于 Evol-Instruct 方法扩展指令，使用 AI 助手生成多轮对话数据。
模型能力缺陷诊断: 通过模型性能评估系统自动识别模型弱点，并针对性地合成新指令。

免责声明

本项目资源仅限学术研究使用，不得用于商业目的。模型输出受随机性等因素影响，不保证准确性，项目不承担任何法律责任。

搜集汇总

数据集介绍

构建方式

BAAI/Infinity-Instruct数据集的构建基于大规模指令数据的收集与处理，旨在为模型提供高质量的指令调优数据。该数据集通过多源数据整合，涵盖了多种语言（如英语和中文），并经过精细的筛选与标注，确保数据的多样性和实用性。数据集的构建过程中，采用了先进的过滤技术，以提升数据的质量和模型的性能。

特点

BAAI/Infinity-Instruct数据集的主要特点在于其大规模和高多样性。数据集包含了数百万条指令实例，覆盖了多种语言和任务类别，特别适用于文本生成任务。此外，数据集采用了Parquet格式存储，便于高效的数据处理和分析。其开放的CC-BY-SA-4.0许可证确保了数据的广泛可用性和共享性。

使用方法

BAAI/Infinity-Instruct数据集可以通过Hugging Face的Datasets库进行加载和使用。用户可以根据需要选择不同的配置（如3M、7M等）来加载特定规模的数据。数据集支持多种数据处理库，如Dask、Polars等，便于进行大规模数据处理。用户可以通过简单的API调用来访问和处理数据，适用于各种文本生成和指令调优任务。

背景与挑战

背景概述

BAAI/Infinity-Instruct数据集由北京人工智能研究院（BAAI）创建，旨在解决大规模指令数据对模型性能提升的关键性问题。该数据集于2024年6月发布，主要研究人员和机构为BAAI，其核心研究问题是如何在高成本的限制下，构建高质量且大规模的指令数据集，以支持开源模型的微调。Infinity-Instruct的发布对自然语言处理领域具有重要意义，尤其是在文本生成任务中，为模型提供了丰富的指令数据，推动了开源社区在模型训练和优化方面的进展。

当前挑战

Infinity-Instruct数据集在构建过程中面临的主要挑战包括：1) 如何在高成本的限制下，生成并筛选出高质量的指令数据；2) 如何确保数据集的多样性和覆盖范围，以适应不同语言（如中文和英文）的需求；3) 如何处理大规模数据集的存储和处理问题，尤其是在数据量超过1000万条的情况下。此外，数据集的构建还需应对数据隐私和伦理问题，确保数据的使用不会对人类主体造成伤害。

常用场景

经典使用场景

BAAI/Infinity-Instruct数据集在自然语言处理领域中，主要用于大规模指令微调任务。该数据集通过提供高质量的指令数据，帮助模型在文本生成任务中表现更加精准和自然。其经典使用场景包括但不限于：基于指令的对话生成、文本摘要生成以及多轮对话系统中的指令遵循能力训练。

解决学术问题

该数据集解决了在自然语言生成任务中，模型对复杂指令理解不足的问题。通过提供大规模、高质量的指令数据，BAAI/Infinity-Instruct显著提升了模型在多任务场景下的泛化能力和指令遵循精度。这对于推动开放源模型在实际应用中的表现具有重要意义，尤其是在需要高度指令依赖的场景中。

衍生相关工作

基于BAAI/Infinity-Instruct数据集，研究者们开发了多种衍生工作，包括但不限于：基于该数据集的指令微调模型、多任务学习框架以及跨语言指令生成模型。这些工作进一步推动了自然语言处理技术在实际应用中的发展，尤其是在多语言环境和复杂指令处理方面，取得了显著的进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集