FormFactory

Name: FormFactory
Creator: 新加坡国立大学, 武汉大学, 浙江大学, 南京大学
Published: 2025-06-02 18:34:57
License: 暂无描述

arXiv2025-06-02 更新2025-06-06 收录

下载链接：

https://formfactory-ai.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

FormFactory是一个针对多模态表单填充任务的交互式基准测试套件，包含一个基于网络的界面、后端评估模块和一个精心构建的数据集。数据集由25个来自现实应用场景的多样化表单组成，以及用户提供的文档或指令与相应13800个字段值注释的配对数据集。该套件允许多模态大语言模型（MLLMs）读取上下文输入，与网络界面交互，并通过点击和类型操作完成表单，最终根据字段级别的正确性进行自动评估。该基准涵盖了广泛的领域、布局和字段类型，提供了真实世界表单填写工作流程的高保真模拟。

提供机构：

新加坡国立大学, 武汉大学, 浙江大学, 南京大学

创建时间：

2025-06-02

搜集汇总

数据集介绍

构建方式

FormFactory数据集通过精心设计的流程构建，涵盖了多样化的真实场景。首先，研究团队开发了一个基于Python和Flask的交互式网页平台，模拟了25种不同领域的表单填写任务，包括学术、金融、医疗等。数据生成采用两阶段方法：先根据表单结构生成标准字段值，再通过大型语言模型合成自然语言描述作为用户输入。对于特定表单（如求职申请），则直接生成50份详细简历作为输入源。整个过程最终形成了包含13,800个标注字段值对的高质量数据集，覆盖文本输入、下拉菜单、复选框等9种字段类型。

特点

该数据集最显著的特点是高度仿真性和多样性。其网页平台完美复现了真实表单的交互逻辑，支持日期选择器、文件上传等复杂操作。数据覆盖8个主要领域，包含单页和多页表单设计，且通过变换布局、排版和配色方案增加样式多样性。每个表单实例都配有精确的字段级标注，特别设计了包含模棱两可语义的案例，以测试模型的对齐能力。这种多维度、高保真的特性使该数据集成为评估表单填写代理的黄金标准。

使用方法

使用FormFactory需通过其交互式评测系统。研究者将目标模型接入网页平台后，模型需要解析输入文档（如简历），生成点击坐标和输入文本等操作序列。系统会自动执行这些动作并比对填写结果与标注数据，输出字段级准确率和整体任务评分。为提升空间推理，建议采用论文提出的标尺增强策略——在界面添加像素级参考线辅助坐标预测。评测支持原子级（单字段）和情景级（完整表单）两种粒度，全面评估模型的语义理解、视觉定位和交互能力。

背景与挑战

背景概述

FormFactory数据集由新加坡国立大学、武汉大学、浙江大学和南京大学的研究团队于2025年联合发布，旨在解决多模态表单自动填充这一长期存在的界面交互难题。作为首个专注于表单任务的基准测试套件，该数据集包含基于真实场景构建的25种表单类型，涵盖学术、金融、医疗等8个领域，并标注了13,800个字段值对。其创新性在于将视觉布局理解、语义对齐和交互逻辑相结合，突破了传统基于规则的自动填充工具的局限性，为多模态大语言模型在图形用户界面代理领域的研究提供了重要实验平台。

当前挑战

该数据集面临的核心挑战体现在两个维度：在任务层面，表单填充要求模型具备细粒度的视觉语义对齐能力，需准确匹配用户提供的非结构化内容（如简历文本）与屏幕字段的复杂映射关系，同时处理下拉菜单、日期选择器等多样化的交互元素；在构建层面，研究团队需克服真实表单的结构异质性难题，包括动态布局变化、字段命名不一致等问题，通过合成数据与真实论文元数据的混合采集策略，确保数据集既保持现实复杂性又具备可扩展性。实验表明，现有最先进模型在零样本设置下的表单完成准确率不足5%，突显了该任务对多模态推理和精确交互的极高要求。

常用场景

经典使用场景

FormFactory数据集在自动化办公和人机交互领域具有广泛的应用前景。该数据集通过模拟真实世界中的在线表单填写任务，为多模态大语言模型（MLLMs）的视觉布局理解和语义对齐能力提供了标准化的评估平台。其经典使用场景包括学术论文提交、求职申请、医疗表格填写等需要精确匹配文本信息与视觉字段的复杂任务。数据集涵盖了25种不同领域的表单类型，包含13,800个标注字段，能够全面检验模型在多样化布局和交互模式下的表现。

实际应用

在实际应用层面，FormFactory可直接服务于人力资源、金融服务和医疗健康等行业。例如在招聘场景中，智能体可自动解析求职者简历并准确填写不同企业的在线申请系统，显著提升HR工作效率。数据集模拟的医疗同意书和保险理赔表等专业表单，为开发医疗文书自动化处理系统提供了测试基准。其支持的跨平台评估功能，使得研发成果能够快速迁移至真实的SaaS应用环境。

衍生相关工作

该数据集已催生多个重要研究方向：基于其构建的Ruler-Enhanced策略启发了后续GUI智能体的视觉空间编码方法；对MLLMs在复合字段上低准确率的发现，推动了《2D-TPE》等表格理解模型的创新；其提出的页面级序列决策范式被OSWorld等新兴基准采纳。相关成果在CVPR和NeurIPS等顶会上形成了GUI智能体研究的子领域，包括视觉网页理解工具VisualWebArena和移动端测试框架GUI Testing Arena等衍生工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集