AdvancedIF

Name: AdvancedIF
Creator: Meta Llama
Published: 2025-11-26 12:12:14
License: 暂无描述

Hugging Face2025-11-26 更新2025-11-28 收录

下载链接：

https://huggingface.co/datasets/meta-llama/AdvancedIF

下载链接

链接失效反馈

官方服务：

资源简介：

AdvancedIF是一个新的基准数据集，包含超过1600个提示和专家策划的量表，旨在评估大型语言模型在以下方面的能力：复杂指令跟随（每个提示包含6个以上的指令，包括格式、风格、结构、长度、负面约束和条件间指令的组合）、多轮指令跟随（能够遵循从前一个环节携带过来的指令），以及系统提示的可控性。

提供机构：

Meta Llama

创建时间：

2025-11-21

原始信息汇总

数据集概述

基本信息

许可证：CC BY-NC 4.0
语言：英语
标签：指令遵循、多轮对话、大语言模型、基于评分标准

数据集简介

AdvancedIF是一个包含超过1,600个提示和专家设计的评分标准的新基准，旨在评估大语言模型在以下方面的能力：

复杂指令遵循：每个提示包含6个以上指令，结合了格式、风格、结构、长度、否定约束、拼写和条件间指令；
多轮指令遵循：遵循先前对话中传递的指令的能力；
系统提示可引导性：遵循系统提示中指令的能力。

详细信息

论文链接：https://arxiv.org/abs/2511.10507
评估脚本：https://github.com/facebookresearch/AdvancedIF

数据划分

测试集：1,645个样本

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，AdvancedIF数据集的构建采用了专家主导的严谨方法，通过精心设计超过1,600个提示词并配套开发了基于规则的评估体系。该过程特别关注复杂指令的多样性，每个提示词均整合了六种以上不同类型的指令元素，包括格式规范、风格要求、结构约束、长度控制、否定条件、拼写规则及跨条件交互指令。这种多维度构建策略确保了数据集能够全面覆盖语言模型在复杂场景下的指令遵循能力，为后续评估提供了坚实的理论基础。

使用方法

研究人员可通过GitHub平台获取官方评估脚本实施标准化测试流程，该数据集主要服务于大语言模型在复杂指令理解领域的性能评估。使用时应按照既定数据划分进行模型测试，重点关注模型在多重指令组合、跨轮次指令传递及系统指令适配三个维度的表现。通过量化分析模型在各子任务上的得分，能够系统性地揭示模型在现实应用场景中的指令遵循能力短板与发展潜力。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的广泛应用，评估其复杂指令执行能力成为关键研究方向。AdvancedIF基准数据集由Meta研究院于2024年创建，聚焦于解决大语言模型在复合指令理解、多轮对话连贯性及系统提示可控性三大核心问题。该数据集通过精心设计的评估框架，为衡量语言模型对包含格式约束、文体要求、否定条件等复杂指令的遵循能力建立了标准化范式，显著推进了对话系统与指令遵循技术的量化评估进程。

当前挑战

在构建AdvancedIF数据集过程中，研究团队面临多重技术挑战：需设计同时包含六类以上异构指令的复合模板，确保语义逻辑的严密性；建立多轮对话的因果关联机制，维持上下文指令执行的连贯性；制定系统提示与用户指令的协同验证方案。该数据集致力于解决的领域挑战在于突破传统单轮简单指令的评估局限，构建能够全面检验语言模型对嵌套条件、格式规范及动态上下文等复杂场景的适应能力，这对提升智能助手的实用性与可靠性具有重要价值。

常用场景

经典使用场景

在大型语言模型评估领域，AdvancedIF数据集通过1600余条精心设计的提示和专家制定的评分标准，为测试模型在复杂指令遵循方面的能力提供了标准化平台。该数据集特别关注多轮对话场景下模型对复合指令的解析能力，包括格式规范、风格转换及否定约束等六类以上指令组合，有效模拟了现实交互中用户对语言模型的复杂需求。

解决学术问题

该数据集系统性地解决了语言模型评估中缺乏细粒度指令遵循标准的问题。通过构建包含结构约束、拼写要求和跨条件指令的评估体系，为量化模型在系统提示可控性、多轮对话一致性等维度的表现提供了科学依据，填补了传统基准测试在复杂语义理解评估上的空白，推动了指令跟随技术向更高精度发展。

实际应用

在智能助手开发和专业对话系统构建中，AdvancedIF为优化模型实际表现提供了关键参照。其多轮指令跟踪能力可直接应用于客服机器人、智能写作助手等场景，确保模型在长对话中持续保持指令执行的准确性。基于该基准的模型调优能显著提升AI系统在医疗咨询、法律文书处理等高风险领域的可靠性。

数据集最近研究