FOFO

Name: FOFO
Creator: Salesforce Research
Published: 2024-02-29 03:23:27
License: 暂无描述

arXiv2024-02-29 更新2024-06-21 收录

下载链接：

https://github.com/SalesforceAIResearch/FoFo

下载链接

链接失效反馈

官方服务：

资源简介：

FOFO数据集是由Salesforce Research和其他合作者共同开发的，旨在评估大型语言模型遵循特定复杂格式要求的能力。该数据集包含494个FORMAT-INSTRU，每个都设计用来测试模型在多个领域中遵循详细格式规范的能力。通过AI-Human协作方法，FOFO数据集覆盖了广泛的现实世界格式和指令，为选择特定领域的AI代理基础模型提供了指导和探针工具。

The FOFO dataset was developed by Salesforce Research and other collaborators, aiming to evaluate the ability of large language models (LLMs) to follow specific complex formatting requirements. This dataset contains 494 FORMAT-INSTRU items, each designed to test a model's capability to adhere to detailed formatting specifications across multiple domains. Utilizing an AI-human collaborative methodology, the FOFO dataset covers a wide range of real-world formats and instructions, providing guidance and probing tools for selecting foundation models for domain-specific AI Agents.

提供机构：

Salesforce Research

创建时间：

2024-02-29

搜集汇总

数据集介绍

构建方式

在人工智能代理日益融入专业领域的背景下，FOFO数据集的构建采用了一种创新的人机协同策略，旨在系统评估大语言模型遵循复杂格式指令的能力。构建过程分为三个层次化步骤：首先，通过结合领域专家知识与GPT-4的扩展能力，识别并收集了涵盖医疗、金融、科技等十个领域及其下属的五十个子领域，这些领域均为AI代理可能发挥辅助作用的场景。随后，针对每个子领域，利用GPT-4生成五个仅限文本、且具有领域特定性的数据格式（如医疗中的处方格式、制造业中的标准作业程序），同时排除了JSON、CSV等通用格式以确保多样性，并由人类专家进行质量审核与修正。最后，基于每个（领域、子领域、数据格式）三元组，通过精心设计的提示词引导GPT-4生成包含详细格式配置与真实世界上下文的复杂格式指令（FORMAT-INSTRU），每条指令均要求模型在生成内容时严格遵循指定的结构、布局与规范，并再次由人类专家验证以确保指令的严谨性与实用性。

特点

FOFO数据集的核心特点在于其专注于评估大语言模型的格式遵循能力，这一维度在现有基准测试中常被忽视。数据集涵盖了广泛的专业领域与高度细分的现实格式，从医疗健康领域的HL7-CDA到制造业的SOP格式，确保了评估场景的多样性与真实性。其指令设计极具复杂性，每条FORMAT-INSTRU不仅包含多层次的格式要求（如章节结构、数据项规范、排版样式），还融入了具体的领域上下文与虚构数据，模拟了AI代理在实际工作中面临的复杂任务环境。这种设计使得模型必须精确理解并执行所有格式细节，任何单一要求的缺失都会导致任务失败，从而显著提升了评估的难度与区分度。此外，FOFO还纳入了JSON、Markdown等五种通用格式在领域特定语境下的测试，为全面分析模型在不同格式上的擅长领域提供了可能。

使用方法

使用FOFO数据集进行评估时，首先需将待测大语言模型置于统一的生成设置下（如温度设为0.7，最大生成长度设为5120字符），并按照各模型官方的提示格式输入数据集中的FORMAT-INSTRU。模型生成的输出随后交由评估系统进行格式正确性判断。评估过程采用以GPT-4为主要评判者的自动化方法，将其建模为一个二元分类任务：评判者根据指令中所有明确的格式要求，逐一检查输出是否完全符合，只要遗漏任一具体要求即判定为失败。为保障评估的可靠性，研究还引入了人类专家对部分标注结果进行抽样验证，确保了较高的机评一致性。用户可通过分析模型在FOFO上的整体准确率、在不同领域与数据格式上的表现差异，深入洞察其格式遵循能力的强弱分布，从而为特定领域AI代理的模型选择或针对性微调提供数据驱动的指导。

背景与挑战

背景概述

FOFO数据集由Salesforce Research等机构的研究团队于2024年提出，旨在系统评估大语言模型遵循复杂领域特定格式的能力。随着大语言模型在医疗、金融、法律等专业领域作为智能代理的广泛应用，其精确遵循结构化格式指令的效能成为实际部署的关键瓶颈。现有基准如AlpacaEval和MT-Bench主要关注内容生成质量，缺乏对格式遵循能力的专门测评。FOFO通过人机协作构建方法，涵盖10个领域、50个子领域及248种数据格式，以494条高复杂度格式指令填补了这一研究空白，为领域专用智能代理的模型选择与优化提供了科学依据。

当前挑战

FOFO所针对的核心挑战在于大语言模型在格式遵循能力上的评估缺失与性能局限。一方面，现有模型在内容生成与格式遵循上表现解耦，例如部分开源模型在内容基准上媲美闭源模型，却在格式遵循上显著落后；另一方面，模型在不同领域（如医疗处方与制造流程报告）的格式遵循能力存在显著差异，揭示其泛化能力的不足。数据构建过程中，研究团队需克服领域格式多样性高、指令复杂度大等难题，通过多轮人机协同迭代确保格式的真实性与评估的严谨性，同时采用GPT-4作为自动评估工具以平衡效率与信度，但其与人工评估的一致性偏差仍需进一步优化。

常用场景

经典使用场景

在大型语言模型作为AI代理的部署场景中，FOFO数据集被广泛用于评估模型遵循复杂、领域特定格式的能力。例如，在医疗保健领域，模型需生成符合HL7-CDA标准的电子健康记录；在金融领域，则需输出符合监管报告格式的风险分析文档。该数据集通过涵盖10个领域、50个子领域的真实格式指令，为研究者提供了一个系统化测试平台，以检验模型在结构化输出任务中的精确性和可靠性。

衍生相关工作

FOFO数据集的推出促进了多个相关研究方向的进展。例如，后续工作开始探索针对格式遵循能力的专项微调方法，以弥补开源模型与闭源模型之间的性能差距。同时，该数据集启发了对跨领域格式迁移性的深入研究，如分析模型在JSON、XML等通用格式与领域特定格式间的表现关联。此外，基于FOFO的评估框架也被扩展用于多模态模型的格式遵循能力测试，进一步推动了AI代理在复杂任务中的实用化发展。

数据集最近研究