jrahn/Infinity-Instruct

Name: jrahn/Infinity-Instruct
Creator: jrahn
Published: 2024-06-20 08:33:49
License: 暂无描述

Hugging Face2024-06-20 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/jrahn/Infinity-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

Infinity Instruct数据集是一个大规模、高质量的指令数据集，旨在提升模型在指令微调任务中的表现。该数据集通过指令选择和指令进化两种策略进行迭代，包含多个版本，如InfInstruct-3M和InfInstruct-0608等，分别用于提升模型在代码、数学等下游任务中的表现和真实对话场景中的指令遵循能力。数据集的特征包括id、conversations和source，支持英文和中文语言，适用于文本生成任务。数据来源包括多个开源社区的数据集，如OpenHermes-2.5、UltraInteract_sft等。

提供机构：

jrahn

原始信息汇总

Infinity Instruct 数据集概述

数据集信息

特征:
- id: 整数类型
- conversations: 列表类型，包含 from 和 value，均为字符串类型
- source: 字符串类型
分割:
- train: 包含 3,463,473 个样本，总大小为 7,431,951,776 字节
下载大小: 3,924,653,807 字节
数据集大小: 7,431,951,776 字节

配置

默认配置:
- train 数据文件路径: data/train-*

任务类别

文本生成

语言

英语
中文

数据集版本

基础数据集:
- InfInstruct-3M
聊天数据集:
- InfInstruct-0608
- InfInstruct-0612
- InfInstruct-0613

数据来源

数据集包含多个开源数据源，如 OpenHermes-2.5, UltraInteract_sft, CodeBagel, CodeFeedback-Filtered-Instruction, self-oss-instruct-sc2-exec-filter-50k, CodeExercise-Python-27k, Evol-Instruct-Code-80k-v1, MathInstruct, orca-math-word-problems-200k, MetaMathQa 等。

数据集构建

数据集构建策略:
- 指令选择: 通过迭代选择和进化指令来构建数据集。
- 指令生成: 使用数据进化策略和模型能力缺陷诊断来生成高质量指令。

数据集版本信息

Infinity-Instruct-3M:
- 包含多个数据源，总行数为 3,463,473。

数据集应用

基础数据集: 用于提升模型在复杂下游任务（如代码、数学）上的性能。
聊天数据集: 用于进一步提升模型在真实对话场景中的指令跟随能力。

搜集汇总

数据集介绍

构建方式

在构建大规模指令数据集的研究背景下，Infinity-Instruct数据集采用了系统化的构建策略。该数据集以开源社区的大量指令数据为种子，通过指令选择与指令演化两种迭代策略进行扩展。具体而言，指令选择聚焦于提升模型在代码、数学等下游任务上的性能，通过启发式规则过滤无关数据，并依据验证集分布从训练集中检索子集。指令演化则基于Evol-Instruct方法，从广度、深度、难度和复杂性四个维度对种子指令进行扩展，并利用AI助手生成多轮对话数据，同时结合模型能力缺陷诊断，自动识别弱点以指导数据合成。

特点

Infinity-Instruct数据集展现出规模宏大与质量精良的双重特性。该数据集包含超过300万条指令实例，涵盖英语和中文双语种，分为基础数据集与聊天数据集两大类别。基础数据集侧重于提升模型在代码、数学等挑战性任务上的性能，而聊天数据集则专注于增强模型在真实对话场景中的指令遵循能力。数据集通过严格的去重与过滤流程，确保了数据的多样性与信息密度，其指令覆盖自然语言处理、数学推理等25个宏观领域，并采用两级标签系统对指令所需能力与知识进行细致标注，为模型训练提供了结构化支持。

使用方法

在自然语言处理领域，Infinity-Instruct数据集主要用于大规模语言模型的指令微调。研究人员可通过HuggingFace平台直接加载该数据集，其数据格式兼容ShareGPT标准，包含id、conversations（含from和value字段）及source等特征，便于集成至如Axolotl等训练框架中。使用时可选择不同版本的数据集：基础数据集适用于提升模型在特定下游任务上的性能，而聊天数据集则用于优化对话生成能力。该数据集支持直接用于监督式微调，以增强模型的指令理解与响应生成质量，推动开放领域对话系统的研究与应用。

背景与挑战

背景概述

在大型语言模型指令微调领域，高质量、大规模的数据集是提升模型性能的关键。2024年，北京智源人工智能研究院（BAAI）推出了Infinity-Instruct项目，旨在构建一个千万级别的高质量指令数据集，以应对开源社区在构建大规模指令微调数据集时面临的高成本挑战。该项目通过整合OpenHermes-2.5、MathInstruct等开源数据作为种子，并采用指令选择与指令演化两种策略进行迭代，核心研究问题聚焦于如何高效生成兼具规模与多样性的指令数据，以增强模型在代码、数学等复杂下游任务中的表现，以及在实际对话场景中的指令遵循能力。该数据集的发布为指令微调研究提供了重要资源，推动了开源大模型在性能与应用边界上的探索。

当前挑战

Infinity-Instruct数据集致力于解决指令微调领域的两大核心挑战：一是如何确保指令数据在覆盖代码、数学推理等专业领域时具备足够的多样性与复杂性，以提升模型在MMLU、GSM8K等基准测试上的表现；二是在构建过程中，需克服从海量开源数据中筛选高质量种子、设计有效的指令演化策略以扩展数据广度与深度，以及通过自动化诊断模型能力缺陷来针对性合成数据等技术难题。此外，数据构建还需平衡规模与质量，避免引入噪声或偏见，并确保生成的多轮对话数据在真实场景中具备良好的指令遵循性与连贯性。

常用场景

经典使用场景

在大型语言模型（LLM）的指令微调领域，Infinity-Instruct数据集以其大规模、高质量的指令对集合，成为提升模型指令遵循能力的核心资源。该数据集通过指令选择与演化策略，构建了涵盖代码生成、数学推理、主观对话等多领域的数百万条指令-响应对。研究人员通常利用该数据集对预训练语言模型进行监督微调，以增强模型在复杂任务中的泛化能力与响应质量，特别是在需要多轮对话或专业领域知识的场景下，该数据集为模型提供了丰富的学习样本。

衍生相关工作

围绕Infinity-Instruct数据集，已衍生出多项重要的模型微调与评估工作。例如，基于其不同版本（如InfInstruct-3M、InfInstruct-0613）对Mistral-7B、Llama-3-70B等模型进行微调，产生了在AlpacaEval2.0、MT-Bench等排行榜上表现优异的模型变体。这些工作进一步探索了数据规模、质量与模型性能之间的关系，并启发了如能力缺陷诊断、数据演化等后续研究方法，为构建更强大的指令遵循模型提供了可复现的范例与洞见。

数据集最近研究