five

HEXAINST

收藏
arXiv2025-05-27 更新2025-05-29 收录
下载链接:
http://arxiv.org/abs/2505.21191v1
下载链接
链接失效反馈
官方服务:
资源简介:
HEXAINST是一个精心策划和平衡的指令数据集,涵盖了六个不同的类别,包括分类、代码、一般问答、生成、数学和摘要。数据集包含1200个实例,每个类别包含100个人工策划的指令和100个AI生成的指令。数据集是通过合成数据(DeepSeek R1)和自然数据(公共基准)构建的,以确保数据源的可变性。该数据集旨在帮助研究LLMs中指令特定组件的功能和独特性,以及它们在模型微调过程中的变化。

HEXAINST is a carefully curated and balanced instruction dataset covering six distinct categories: classification, code, general question answering, generation, mathematics, and summarization. It contains 1200 instances in total, with 100 manually curated instructions and 100 AI-generated instructions for each category. The dataset is constructed from synthetic data (DeepSeek R1) and natural data (public benchmarks) to ensure variability in data sources. This dataset is designed to help researchers study the functions and unique characteristics of instruction-specific components in LLMs, as well as their changes during the model fine-tuning process.
提供机构:
香港科技大学(广州)
创建时间:
2025-05-27
搜集汇总
数据集介绍
main_image_url
构建方式
HEXAINST数据集是一个精心构建的平衡指令数据集,涵盖了六个不同的类别:分类(CLS)、代码(CODE)、通用问答(QA)、生成(GEN)、数学(MATH)和摘要(SUM)。每个类别包含100条AI生成的指令和100条人工整理的指令,以确保数据来源的多样性。数据集的构建过程包括两个主要来源:合成数据(通过DeepSeek R1生成)和自然数据(基于公开基准数据集)。所有数据均经过人工后验证,以确保质量和准确性。
特点
HEXAINST数据集的特点在于其平衡性和多样性。每个指令类别均包含AI生成和人工整理的指令,有效控制了数据来源的变异性。此外,数据集的设计使得研究人员能够分离神经元激活模式与数据源偏差,从而更准确地分析模型的行为。数据集覆盖了多种任务类型,包括分类、代码生成、问答、文本生成、数学问题和摘要生成,为研究指令调优的机制提供了全面的基础。
使用方法
HEXAINST数据集主要用于研究大型语言模型(LLMs)在指令调优过程中的内部机制。通过使用该数据集,研究人员可以识别和分析指令特定的神经元(ISNs)和专家(ISEs),评估其功能通用性和独特性,并比较调优前后这些稀疏组件的变化。数据集的使用方法包括将指令输入模型、记录神经元和专家的激活模式,并通过统计方法(如Jaccard相似性和Pearson相关系数)分析其分布和变化。
背景与挑战
背景概述
HEXAINST数据集由香港科技大学(广州)的研究团队于2025年创建,旨在系统研究大型语言模型(LLMs)在指令微调过程中的内部计算机制。该数据集包含六类平衡的指令任务(分类、代码、通用问答、生成、数学和摘要),共计1200条实例,每条指令均经过人工验证以确保质量。作为首个专注于解析指令特定神经元(ISNs)和专家(ISEs)的基准数据集,HEXAINST为理解LLMs如何通过稀疏计算组件实现指令跟随能力提供了关键实验基础,推动了可解释AI领域的发展。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决LLMs指令微调后性能提升与内部机制不透明的核心矛盾,传统方法难以定位影响指令执行的稀疏计算组件;在构建层面,需克服现有指令数据集类别分布不均的缺陷,通过融合人工标注与AI生成数据确保六类指令的平衡性,同时设计元提示约束和正则表达式匹配等技术手段消除数据源偏差。此外,验证阶段需处理自然语言指令的多义性问题,建立三级人工审核机制保障分类准确性。
常用场景
经典使用场景
在大型语言模型(LLM)的微调研究中,HEXAINST数据集被广泛应用于分析指令特定神经元(ISNs)和专家(ISEs)的激活模式。该数据集包含六类平衡的指令任务(分类、代码、通用问答、生成、数学和摘要),为研究者提供了一个标准化的基准,用于探究微调过程中模型内部计算机制的变化。通过SPARCOM框架,研究者能够系统地识别和评估这些稀疏组件,从而揭示LLM指令跟随能力的底层机制。
解决学术问题
HEXAINST数据集解决了LLM微调研究中两个关键学术问题:一是揭示了微调如何通过重塑稀疏神经元和专家来增强模型的指令跟随能力;二是提供了量化分析工具,用于评估不同指令类型下神经元的通用性和独特性。该工作首次证实了指令特定神经元的存在及其功能分化,为理解LLM的知识表征方式提供了新的理论视角,推动了可解释AI领域的发展。
衍生相关工作
基于HEXAINST的发现,衍生出多个重要研究方向:Tang等人扩展了语言特定神经元理论;Huo团队开发了多模态神经元分析框架MMNeuron;Prakash等验证了神经元重用机制。这些工作共同推动了稀疏激活理论的发展,并为Qwen-MoE等混合专家模型的架构设计提供了实证依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作