five

MulDimIF

收藏
github2025-05-15 更新2025-05-16 收录
下载链接:
https://github.com/Junjie-Ye/MulDimIF
下载链接
链接失效反馈
官方服务:
资源简介:
MulDimIF是一个多维约束框架,用于评估和改进大型语言模型(LLMs)的指令跟随能力。该数据集包含1,200个可代码验证的指令跟随测试样本,用于评估19个LLMs在七种模型家族中的表现。数据集包含训练集(7,906个样本)和测试集(1,200个样本),每个样本具有唯一的ID、对话内容、约束条件和约束模式。

MulDimIF is a multi-dimensional constraint framework dedicated to evaluating and improving the instruction-following capabilities of large language models (LLMs). This dataset includes 1,200 code-verifiable instruction-following test samples, which are utilized to assess the performance of 19 LLMs spanning seven model families. The dataset is divided into a training set (7,906 samples) and a test set (1,200 samples), where each sample possesses a unique ID, dialogue content, constraint conditions, and constraint mode.
创建时间:
2025-04-27
原始信息汇总

MulDimIF数据集概述

数据集简介

  • 目的:评估和改进大型语言模型(LLMs)在遵循用户定义约束方面的能力
  • 创新点:提出多维度约束框架,包含3种约束模式、4种约束类别和4种难度级别
  • 数据规模:包含1,200个可代码验证的指令遵循测试样本

数据集内容

  • 训练数据train.json (7,906个样本)
  • 测试数据test.json (1,200个样本)
  • 数据结构
    • id:唯一标识符
    • conversations:不含答案的消息
    • constraints:用于评估的约束条件
    • constraint_pattern:样本的约束模式

评估支持

  • 开源模型评估:支持LLaMA3.1、Qwen2.5、DeepSeek-R1-Distill-LLaMA和DeepSeek-R1-Distill-Qwen系列
  • 闭源模型评估:支持Gemini1.5、Claude3.5和GPT系列

模型改进

  • 方法:使用强化学习(GRPO算法)改进LLMs的指令遵循能力
  • 支持模型:参数不超过140亿的模型

许可信息

  • 代码许可:Apache License 2.0
  • 数据许可:CC BY 4.0

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型指令跟随能力的评估领域,MulDimIF数据集通过创新的多维约束框架构建而成。研究团队设计了包含三种约束模式、四种约束类别和四个难度级别的评估体系,并开发了自动化指令生成流程。该流程通过约束扩展、冲突检测和指令重写三大核心模块,最终生成1,200个可代码验证的测试样本,确保了数据集的科学性和可验证性。
特点
该数据集最显著的特点在于其精细化的多维评估体系,能够全面考察语言模型对不同形式约束的遵循能力。测试数据显示,模型在Level I到Level IV的表现呈现显著差异,平均准确率从77.67%降至32.96%,充分体现了数据集的区分度。此外,数据集特别设计了可代码验证的评估机制,通过自动化脚本确保评估结果的客观性和可重复性。
使用方法
数据集提供了完整的评估流程和使用指南。用户可通过提供的Python脚本对开源和闭源语言模型进行统一评估,支持批量处理和并行计算。对于模型优化,数据集包含7,906个训练样本,可用于强化学习训练,并提供了GRPO算法的完整实现方案。评估过程包含自动化评分模块,通过解析模型输出与预设约束的匹配度进行量化评分,确保评估结果的标准化和可比性。
背景与挑战
背景概述
MulDimIF数据集由复旦大学的研究人员Junjie Ye等人于2025年5月提出,旨在解决大型语言模型(LLMs)在遵循用户指令方面的评估问题。该数据集通过构建一个多维约束框架,涵盖了三种约束模式、四种约束类别和四种难度级别,以更全面地评估模型性能。其创新之处在于采用了自动化的指令生成流程,包括约束扩展、冲突检测和指令重写,生成了1,200个可验证的测试样本。该数据集不仅为LLMs的指令遵循能力提供了细粒度的评估标准,还为模型优化提供了数据支持,推动了相关领域的研究进展。
当前挑战
MulDimIF数据集在构建过程中面临多重挑战。首先,现有基准测试多依赖模板化约束提示,缺乏真实场景的多样性,难以全面评估模型性能。其次,多维约束框架的设计需兼顾不同约束模式和类别的平衡,确保评估的全面性和准确性。此外,自动化指令生成流程的实现涉及复杂的冲突检测和指令重写技术,对算法设计和数据处理提出了较高要求。最后,数据集的验证需确保每一条指令的可执行性和约束的可验证性,这对标注和测试流程的严谨性提出了挑战。
常用场景
经典使用场景
在自然语言处理领域,MulDimIF数据集为评估大型语言模型(LLMs)的指令遵循能力提供了多维度的约束框架。该数据集通过自动化指令生成流程,构建了包含多种约束模式和难度级别的测试样本,为研究人员提供了一个标准化的评估平台。经典使用场景包括对不同LLMs在指令遵循任务上的性能进行横向比较,以及通过参数级分析揭示模型性能提升的内在机制。
解决学术问题
MulDimIF数据集解决了现有指令遵循评估中模板化约束缺乏多样性的问题,填补了细粒度性能评估的空白。通过构建包含三种约束模式、四种约束类别和四种难度级别的框架,该数据集使得研究者能够全面评估LLMs在复杂约束条件下的表现。其重要意义在于揭示了不同约束形式下模型性能的显著差异,并为通过强化学习提升指令遵循能力提供了数据支持。
衍生相关工作
基于MulDimIF数据集,已衍生出多项重要研究工作。其中最突出的是利用该数据集进行强化学习训练,采用GRPO算法显著提升了LLMs的指令遵循能力。此外,该数据集还启发了对模型注意力机制参数更新的深入研究,揭示了性能提升的内在机制。这些工作为后续研究提供了宝贵的参考和方法论指导。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作