five

MOSAIC

收藏
arXiv2026-01-26 更新2026-01-28 收录
下载链接:
https://github.com/CapitalOne-Research/llm-instruction-following-compliance
下载链接
链接失效反馈
官方服务:
资源简介:
MOSAIC是由Capital One研究团队开发的模块化评估基准,旨在对大型语言模型的指令遵循能力进行细粒度分析。该数据集包含4000条动态生成的文本提示,每条提示整合了内容生成任务、产品/服务描述及1-20个应用导向约束,覆盖格式、词汇、句法和语义四大类共21种约束类型。数据通过分层抽样构建,确保约束类型、列表长度和位置分布的平衡性。其创新性在于采用模块化设计将约束与核心任务解耦,支持对约束交互效应和位置偏置的独立研究,主要应用于评估LLM在复杂指令场景下的合规性表现,为提升模型可靠性提供诊断依据。
提供机构:
Capital One
创建时间:
2026-01-26
原始信息汇总

数据集概述

数据集名称

MOSAIC (MOdular Synthetic Assessment of Instruction Compliance)

数据集简介

MOSAIC 是一个模块化框架,旨在对大型语言模型的指令遵循能力进行细粒度、独立的分析。该框架使用动态生成的数据集,其中包含多达20个面向应用的生成约束。

数据集生成方式

  • 通过运行 python generate_modular_dataset.py 脚本,可在项目目录下生成包含数据集的CSV文件。

相关环境配置

  • Python版本:3.10
  • 依赖安装:通过 pip install -r requirements.txt 安装所需依赖。
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型指令遵循能力评估领域,现有基准常难以分离合规性与任务成功,且约束设计缺乏现实应用关联。MOSAIC数据集采用动态合成框架构建,其核心在于模块化与可扩展性。构建过程首先系统化组合文本生成任务、产品服务描述以及从21类应用导向约束池中抽取的指令,约束数量可在1至20间动态调整,并控制指令排列顺序以消除位置偏差。随后通过分层抽样从初始生成的超大规模提示集合中,均衡提取4000条样本,确保各约束在不同列表长度、任务及产品上下文中均匀分布,从而为模型能力提供纯净且无偏的评估基础。
使用方法
该数据集旨在为大型语言模型的指令遵循能力提供细粒度、诊断性的评估。使用时,研究者将数据集中的提示输入待测模型,获取生成文本。评估体系包含多层次指标:单约束合规率用于衡量模型对特定指令类型的遵循能力;成对约束合规率通过相关性分析揭示指令间的协同或冲突关系;基于位置的合规率则用于检测模型是否存在首因或近因等注意力偏差;提示级遵循准确率则综合反映模型在复杂多约束下的整体表现。对于格式化、词汇及句法类约束,采用基于规则的函数进行自动化评分;对于语义及商业法律等复杂约束,则采用LLM即法官的方法进行评判,确保了评估的全面性与可靠性。
背景与挑战
背景概述
随着大语言模型日益成为智能代理和信息处理系统的核心组件,其遵循复杂指令的可靠性成为关键挑战。现有评估基准往往将任务成功与指令遵循能力相混淆,或使用脱离实际应用的约束条件。为此,Capital One的研究团队于2026年提出了MOSAIC基准,旨在通过模块化、动态生成的合成数据集,对大语言模型的指令遵循能力进行细粒度、独立于任务本身的评估。该数据集包含多达20个面向应用的生成约束,规模达4000个提示,为核心研究问题——即解构并量化模型在多重、复杂指令下的遵循行为——提供了创新的分析框架,对推动可靠、可控的大语言模型发展具有重要影响力。
当前挑战
MOSAIC基准致力于解决的核心领域挑战是,对大语言模型遵循复杂、多重指令的能力进行精准评估。这一问题的难点在于,需要将模型对指令格式、风格、结构等元规则的遵循能力,与其完成核心任务的内容准确性进行有效剥离。在数据集构建过程中,主要面临三大挑战:一是设计既具现实应用意义、又可自动化验证的复杂语义约束;二是通过动态生成与分层抽样策略,构建一个在约束数量、类型、位置及任务组合上均保持平衡的大规模数据集,以消除数据泄漏风险并支持无偏分析;三是开发一套能够准确、高效评估多样化约束遵循情况的混合评估体系,特别是对于需依赖大语言模型作为评判者的复杂语义与业务合规性约束,其评估的可靠性与一致性构成了显著挑战。
常用场景
经典使用场景
在大型语言模型指令遵循能力的评估领域,MOSAIC数据集提供了一个高度模块化的基准测试框架。其经典使用场景在于对模型进行细粒度、可扩展的指令遵循能力诊断。研究者通过动态生成包含多达20项应用导向约束的提示,系统性地评估模型在文本生成任务中,对格式化、词汇、句法、语义及商业/法律等多类别复杂约束的遵循情况。该场景的核心在于将约束与核心任务解耦,从而独立分析模型的指令遵循能力,而非其任务解决能力。
解决学术问题
该数据集主要解决了大型语言模型评估中指令遵循与任务成功相混淆的学术难题。传统基准测试常将约束嵌入具体任务,难以区分模型是遵循了指令还是完成了任务。MOSAIC通过模块化约束列表,实现了对模型内在指令遵循能力的纯粹评估。它揭示了指令遵循并非单一能力,而是随约束类型、数量及位置显著变化的复合能力,为理解模型在复杂、多约束环境下的行为模式提供了关键见解,推动了更可靠、可控的模型开发。
实际应用
在实际应用中,MOSAIC数据集为构建需要严格遵循复杂指令的AI系统提供了关键评估工具。例如,在自动化营销内容生成、产品文档撰写或内部备忘录起草等场景中,模型不仅需要完成内容创作,还必须严格遵守品牌语调、格式规范、法律合规性及可读性等多项约束。该数据集能够帮助开发者诊断模型在特定约束组合下的失败点,优化提示工程策略,从而提升AI代理在业务流程中作为可靠组件的表现,确保生成内容既准确又完全符合预设标准。
数据集最近研究
最新研究方向
在大型语言模型(LLM)评估领域,MOSAIC数据集作为模块化指令遵循评估基准,正推动研究向细粒度、可解释性方向深化。其前沿探索聚焦于解构指令遵循能力,通过动态生成包含多达20条应用导向约束的数据集,实现对模型合规性的独立分析。研究发现,指令遵循并非单一能力,而是随约束类型、数量及位置呈现显著差异,揭示了模型特有的弱点、指令间的协同与冲突关系,以及首因效应与近因效应等位置偏差。这些洞察为诊断模型失败、开发更可靠LLM提供了关键工具,尤其在需要严格遵循复杂指令的系统中,促进了评估方法从整体性能向微观机制分析的范式转变。
相关研究论文
  • 1
    Deconstructing Instruction-Following: A New Benchmark for Granular Evaluation of Large Language Model Instruction Compliance AbilitiesCapital One · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作