FormFactory

github2025-06-16 更新2025-06-17 收录

下载链接：

https://github.com/formfactory-ai/formfactory

下载链接

链接失效反馈

官方服务：

资源简介：

FormFactory提供了一个高保真度的基准测试和实验平台，用于多模态表单填写代理。该项目包含40多个来自真实场景的高保真HTML表单，涵盖八个领域（学术、商业、金融、医疗等）。数据集包括JSON格式的金答案（真实字段值）、支持性文本材料以及带有边界框注释的页面截图。

FormFactory provides a high-fidelity benchmarking and experimental platform for multi-modal form filling agents. The project includes over 40 high-fidelity HTML forms sourced from real-world scenarios, spanning eight domains including academia, commerce, finance, and healthcare. The dataset encompasses gold answers in JSON format for actual field values, supporting textual materials, and page screenshots with bounding box annotations.

创建时间：

2025-06-03

原始信息汇总

FormFactory 数据集概述

📌 数据集简介

FormFactory 是一个用于多模态表单填写代理的交互式基准测试套件，专注于解决在线表单填写任务中的布局理解和字段-值对齐问题。

🌐 数据组成

Web 前端
- 包含 40+ 高保真 HTML 表单，覆盖 8 个真实场景领域：
  - 学术界、商业、金融、医疗保健、艺术、技术、法律、制造业
数据集
- data1/：每个表单的 JSON 格式黄金答案（真实字段值）
- data2/：支持性文本材料（可用作额外上下文或提示）
- labeled-images/：页面截图和对应的边界框标注（按文件夹 A-H 组织）
后端服务
- 轻量级 Flask API，功能包括：
  - 页面渲染
  - 提交接收
  - 结果自动保存
评估脚本
- 提供多种评估工具：
  - 字段级和表单级准确率计算
  - 布局推理指标等

✨ 核心特点

多领域覆盖：8 个不同应用领域
高保真页面：真实布局测试视觉理解和字段定位能力
动态字段：包含组、可重复部分、级联依赖等复杂字段
交互式评估：实时观察模型行为并自动保存结果
易于扩展：只需提供 HTML 模板和 JSON 答案文件即可添加新表单

📂 目录结构

text formfactory/ ├─ app.py # Flask 后端入口 ├─ templates/ # 40+ HTML 表单模板 ├─ static/ # 样式表和前端资源 ├─ data/ # 数据集根目录 │ ├─ data1/ # JSON 格式黄金答案 │ ├─ data2/ # 支持性文本材料 │ └─ labeled-images/ # 截图+边界框标注 (A–H) ├─ submission/ # 自动生成的用户/模型提交 └─ README.md # 说明文档

📄 许可信息

项目采用 MIT 许可证
许可证文件：https://github.com/formfactory-ai/formfactory/blob/main/LICENSE

🔗 引用方式

bibtex @misc{li2025formfactoryinteractivebenchmarkingsuite, title = {FormFactory: An Interactive Benchmarking Suite for Multimodal Form-Filling Agents}, author = {Bobo Li and Yuheng Wang and Hao Fei and Juncheng Li and Wei Ji and Mong-Li Lee and Wynne Hsu}, year = {2025}, eprint = {2506.01520}, archivePrefix= {arXiv}, primaryClass = {cs.CL}, url = {https://arxiv.org/abs/2506.01520} }

搜集汇总

数据集介绍

构建方式

FormFactory数据集通过精心设计的流程构建，涵盖了多模态表单填写代理的多样化需求。该数据集基于真实场景，从学术、商业、金融、医疗等八大领域中精选了40余个高保真HTML表单模板，确保数据来源的广泛性和代表性。每个表单均配有JSON格式的标准答案，支持文本材料以及标注的页面截图和边界框注释，为研究提供了全面的基准数据。后端服务采用轻量级Flask API实现，能够自动渲染页面、接收提交并保存结果，极大简化了实验流程。

使用方法

使用FormFactory数据集需首先克隆GitHub仓库并安装Python依赖环境。通过运行Flask后端服务，用户可在本地启动交互式实验平台。数据集提供了清晰的目录结构，包括表单模板、标准答案和标注图像，便于快速定位所需资源。评估脚本支持字段级和表单级精度计算，以及布局推理指标分析。用户可通过简单的命令行操作启动演示服务器，在浏览器中自由选择表单进行交互测试，所有提交结果将自动保存至指定目录。

背景与挑战

背景概述

FormFactory数据集由Bobo Li等研究人员于2025年提出，旨在解决多模态大语言模型（MLLMs）在网页表单填写任务中的性能瓶颈问题。该数据集由来自学术界、商业、金融、医疗等八个领域的40余个高保真HTML表单构成，包含JSON格式的标准答案、辅助文本材料以及带有边界框标注的页面截图。作为首个专注于多模态表单填写的交互式基准测试平台，FormFactory通过提供动态字段、重复区块等真实场景元素，显著提升了智能代理在视觉布局理解和字段-值对齐方面的研究价值。

当前挑战

该数据集主要应对两大挑战：在领域问题层面，传统基于规则的自动化工具难以处理复杂多变的网页布局，而现有MLLMs在跨模态语义对齐和上下文推理方面表现欠佳；在构建过程中，需平衡表单的领域多样性与现实复杂性，确保标注数据既能反映真实场景又具备可扩展性。动态字段和级联依赖关系的精确标注进一步增加了数据集的构建难度。

常用场景

经典使用场景

在人工智能与多模态交互领域，FormFactory数据集为研究者提供了一个高度仿真的实验平台，用于评估多模态大语言模型（MLLMs）在表单填写任务中的表现。通过涵盖学术、商业、金融、医疗等八大领域的40余种高保真HTML表单，该数据集能够模拟真实场景中的复杂布局和动态字段，成为测试模型视觉理解和字段对齐能力的黄金标准。

解决学术问题

FormFactory解决了多模态表单填写研究中两大核心问题：一是传统规则脚本难以应对动态变化的网页布局，二是现有模型在字段-值对齐和布局推理上的不足。通过提供带有标注的屏幕截图、边界框注释和标准答案，该数据集为量化模型性能、优化视觉-语言协同推理提供了可复现的基准，推动了自动化表单填写技术的理论突破。

实际应用

该数据集的实际价值体现在企业流程自动化场景中。金融机构可利用其测试贷款申请表自动填写系统的鲁棒性，医疗机构能评估电子病历录入模型的隐私合规性。其轻量级后端服务支持实时交互测试，帮助开发者快速迭代智能客服、无障碍辅助工具等应用，显著降低人工表单处理的成本与错误率。

数据集最近研究