InfinityInstruct-Subject
收藏arXiv2025-07-09 更新2025-07-11 收录
下载链接:
https://github.com/BAAI-DIPL/InfinityInstruct-Sub, https://huggingface.co/datasets/BAAI/Infinity-Instruct/tree/main/Gen
下载链接
链接失效反馈官方服务:
资源简介:
InfinityInstruct-Subject 是一个包含约150万个高质量指令的数据集,旨在解决当前指令数据集在覆盖范围和指令复杂性方面的局限性。该数据集通过一个系统的指令数据构建框架创建,该框架集成了一个层次标签系统、一个信息丰富的种子选择算法、一个进化数据合成过程以及一个基于模型缺陷诊断的有针对性的数据生成过程。InfinityInstruct-Subject 数据集的构建过程包括收集高质量的种子指令,开发一个基于大型语言模型的自动标签系统来分析数据池的分布,并应用进化算法生成新的指令样本。该数据集在多个基准测试中表现出了提高指令遵循能力的效果,并在与类似的合成指令数据集相比时,显示出更大的覆盖范围和复杂性。
InfinityInstruct-Subject is a dataset containing approximately 1.5 million high-quality instructions, designed to address the limitations of existing instruction datasets in terms of coverage and instruction complexity. This dataset is created through a systematic instruction data construction framework, which integrates a hierarchical labeling system, an informative seed selection algorithm, an evolutionary data synthesis process, and a targeted data generation process based on model defect diagnosis. The construction process of the InfinityInstruct-Subject dataset includes collecting high-quality seed instructions, developing an automatic labeling system based on large language models to analyze the distribution of the data pool, and applying evolutionary algorithms to generate new instruction samples. This dataset has demonstrated efficacy in improving instruction-following capabilities across multiple benchmark tests, and exhibits broader coverage and higher complexity when compared to similar synthetic instruction datasets.
提供机构:
北京智源人工智能研究院(BAAI)
创建时间:
2025-07-09
搜集汇总
数据集介绍

构建方式
在构建InfinityInstruct-Subject数据集时,研究团队采用了一种系统化的指令数据构建框架,该框架整合了多层次标注系统、信息丰富的种子选择算法、进化式数据合成流程以及基于模型缺陷诊断的定向数据生成。这一闭环系统通过迭代方式持续提升指令数据的覆盖范围和深度。具体而言,团队首先收集了约700万条种子指令,随后利用大型语言模型(LLM)驱动的自动标注系统分析数据分布,筛选出120万条高信息量的种子指令。通过进化算法生成超过100万条新指令样本后,构建了模型缺陷诊断系统来识别能力缺口,并针对性生成新数据。整个过程采用严格的语义相似度检测机制防止数据泄露,最终形成了包含146万条高质量指令的数据集。
特点
InfinityInstruct-Subject数据集展现出两大核心特征:在覆盖维度上,通过分层多语言标注系统实现了对21,378个细粒度标签和1,000个领域级标签的完整映射,其语义空间熵值达到5.023,显著高于同类数据集。在深度维度上,采用五级难度评分体系验证显示,该数据集包含34.7%的高难度指令(难度评分≥3),平均难度得分为2.83,超越了Magpie等基准数据集。特别值得注意的是,数据集中标签连接度呈现显著的幂律分布特征(γ=-1.62),揭示了指令知识结构的无标度网络特性,这种拓扑结构为理解模型性能的扩展规律提供了新的理论视角。
使用方法
该数据集适用于大语言模型的指令微调阶段,使用时建议采用三阶段策略:首先基于分层标签系统进行领域平衡采样,确保各知识领域均匀覆盖;其次采用难度渐进式训练策略,从简单指令逐步过渡到多技能复合指令;最后结合缺陷诊断模块实施针对性增强训练。实验表明,在Llama3-8B和Qwen-2-7B等基础模型上,使用该数据集微调后的模型在AlpacaEval 2.0和Arena-Hard-V0.1基准测试中分别获得36.22和35.3的显著提升。为避免数据泄露,建议在使用前通过BGE模型计算与评估集的语义相似度,阈值建议设定为λ=0.91。数据集支持HuggingFace平台直接加载,并提供了完整的标签映射体系供下游任务适配。
背景与挑战
背景概述
InfinityInstruct-Subject是由北京智源人工智能研究院(BAAI)的研究团队于2025年提出的高质量指令数据集,旨在解决当前指令调优领域的关键瓶颈问题。该数据集构建于大规模预训练模型蓬勃发展的时代背景下,核心研究团队包括Li Du、Hanyu Zhao等学者,他们创新性地提出了覆盖度(coverage)与深度(depth)的双维度扩展框架。作为指令调优领域的重要突破,该数据集包含约150万条指令,通过分层标注系统、信息种子选择算法和进化式数据合成等技术,显著提升了模型在复杂指令遵循和罕见领域任务上的表现,为从数据量扩张到质量提升的范式转变奠定了理论基础。
当前挑战
在领域问题层面,InfinityInstruct-Subject致力于解决现有指令数据集在任务类型覆盖和指令复杂度上的双重局限。具体表现为:模型在长尾分布任务中泛化能力不足,对需要多步推理的复合指令响应准确率较低。在构建过程中,研究团队面临四大技术挑战:1) 设计可解释的层次化多语言标注体系以实现指令空间的精准测绘;2) 开发基于信息熵的种子选择算法识别低覆盖率高价值样本;3) 建立进化合成机制实现指令复杂度可控增长;4) 构建模型缺陷诊断系统实现针对性数据生成。这些挑战通过创新的闭环框架得以系统化解决,但如何保持标注体系与新兴任务的同步扩展仍是持续演进的难点。
常用场景
经典使用场景
InfinityInstruct-Subject数据集在自然语言处理领域中被广泛用于指令微调任务,特别是在大型预训练模型的优化过程中。该数据集通过其高质量的指令数据,帮助模型提升对复杂指令的理解和执行能力。研究人员通常利用该数据集进行多轮对话生成、任务导向的文本生成以及跨领域知识迁移等任务,以验证模型在多样化场景下的表现。
解决学术问题
该数据集解决了当前指令数据集中覆盖范围有限和指令深度不足的问题。通过系统化的数据构建框架,InfinityInstruct-Subject显著提升了模型在罕见任务和复杂推理任务中的表现。其分层标签系统和进化数据合成方法为指令数据的扩展提供了理论支持,填补了现有研究中数据分布不平衡的空白。
衍生相关工作
基于InfinityInstruct-Subject数据集,研究人员开发了多种改进模型,如增强版的Evol-Instruct和Magpie等。这些工作进一步优化了指令数据的合成策略,并在模型自改进、缺陷诊断等方向取得了显著进展。该数据集还启发了对指令标签共现结构的研究,为理解模型的知识获取机制提供了新的视角。
以上内容由遇见数据集搜集并总结生成



