tis-subset-datasets-Llama-2-7b-hf
收藏Hugging Face2026-02-23 更新2026-02-24 收录
下载链接:
https://huggingface.co/datasets/Harvard-DCML/tis-subset-datasets-Llama-2-7b-hf
下载链接
链接失效反馈官方服务:
资源简介:
本数据集包含针对Llama-2-7b-hf模型进行定向指令微调的预计算指令训练子集,源自论文《A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)》。数据集采用不同数据表示(RDS+、EMBED和LESS)和选择算法(Round Robin、Doubly Greedy、UOT、KNN-Uniform和KNN-KDE)生成,适用于BBH、Codex、GSM8K、TyDiQA和MMLU-Pro等多种目标任务。数据集包含多个配置,每个配置包含10,000个样本,每个样本包含数据集来源、唯一ID、角色/内容格式的对话历史以及原始索引等字段。该数据集适用于文本生成任务,旨在研究指令选择方法对模型性能的影响。
创建时间:
2026-02-12
搜集汇总
数据集介绍
构建方式
在大型语言模型指令微调的研究领域中,数据集构建的精细化策略对于提升模型在特定任务上的性能至关重要。该数据集基于论文《A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)》提出的方法,通过从庞大的候选指令池中,针对特定目标任务(如BBH、Codex、GSM8K、TyDiQA和MMLU-Pro)进行有选择的子集抽取。构建过程采用了多种数据表示方法(包括RDS+、EMBED和LESS)与选择算法(如轮询、双重贪婪、UOT、KNN均匀和KNN-KDE)的组合,每种配置均以10,000个样本为预算,确保子集在保持多样性的同时精准对齐目标任务的特性。
特点
该数据集在指令选择研究领域展现出鲜明的结构化特征,其核心在于通过预计算的子集为指令微调提供标准化基准。每个子集均以统一的格式组织,包含数据集来源、唯一标识符、角色与内容结构的对话历史以及原始索引,确保了数据的可追溯性与一致性。数据集覆盖了多个知名评估任务,并通过不同的表示与算法组合形成了丰富的配置变体,使得研究者能够系统性地比较不同选择策略在模型性能上的影响,为深入探究指令选择机制提供了多维度的实验基础。
使用方法
在自然语言处理的研究与应用中,该数据集主要服务于指令微调的实验与评估。使用者可通过HuggingFace平台直接加载特定配置的子集,例如选择`less_rr_bbh_10000`来获取基于LESS表示和轮询算法针对BBH任务筛选的样本。数据以标准的训练分割形式提供,可直接用于Llama-2-7b-hf等模型的微调流程,或作为基准数据用于分析不同选择策略的有效性。通过结合提供的论文与代码库,研究者能够复现或扩展实验,深入探索指令选择中关键因素的贡献。
背景与挑战
背景概述
在大型语言模型(LLM)的指令微调领域,如何从海量候选指令数据中高效选取与目标任务相关的子集,是提升模型专业化性能的关键。基于此研究背景,Nayak等人于2026年提出了名为'tis-subset-datasets-Llama-2-7b-hf'的数据集,旨在系统评估不同数据表示与选择算法对指令选择效果的影响。该数据集依托于Llama-2-7b-hf模型,针对BBH、GSM8K等多个经典评测任务,提供了多种预计算子集,为指令选择方法的可解释性与有效性研究奠定了实证基础。
当前挑战
该数据集致力于解决指令选择中的核心挑战:如何在有限预算下,从异构、大规模的指令池中精准筛选出能够最大化提升模型在特定任务上性能的数据子集。这一过程面临双重困难:其一,在算法层面,需要克服不同数据表示(如LESS、RDS+)与选择策略(如轮询、最近邻)之间的交互复杂性,以平衡选择效率与泛化能力;其二,在构建层面,需确保子集在不同目标任务(如代码生成、数学推理)间具有可比性与代表性,同时维持原始数据的对话结构完整性,这对数据清洗、对齐与标准化提出了较高要求。
常用场景
经典使用场景
在大型语言模型指令微调的研究范式中,数据选择策略的有效性评估至关重要。该数据集为研究人员提供了基于Llama-2-7b-hf模型预计算的指令子集,涵盖了多种数据表示与选择算法的组合。其经典使用场景在于系统性地比较不同目标导向数据选择方法(如LESS、RDS+等表示与轮询、双贪婪等算法)在特定下游任务(如BBH、GSM8K)上的微调效果,从而为高效指令选择提供实证基准。
实际应用
在实际模型开发中,资源约束常限制了对全部指令数据进行微调的可能性。该数据集为工程师提供了经过优化的预选指令子集,可直接用于对Llama-2-7b-hf等模型进行针对性微调,以快速适配代码生成、数学推理或多语言问答等具体应用场景。这显著降低了数据筛选的计算开销,加速了领域专用语言模型的开发与部署流程。
衍生相关工作
围绕该数据集所支撑的研究,已衍生出对数据选择机制更深入的探索。相关经典工作包括分析不同数据表示(如嵌入向量与模型隐状态)对选择效果的贡献,以及比较主动学习策略与基于密度的采样在指令选择中的优劣。这些研究进一步催生了针对数据质量评估、选择偏差校正以及跨任务泛化能力的新一代算法框架。
以上内容由遇见数据集搜集并总结生成



