FORGE

github2026-04-09 更新2026-04-14 收录

下载链接：

https://github.com/AI4Manufacturing/FORGE

下载链接

链接失效反馈

官方服务：

资源简介：

FORGE是一个用于工业制造场景中视觉语言模型评估的细粒度多模态数据集，涵盖了三个核心任务以及基础消融研究。

FORGE is a fine-grained multimodal dataset dedicated to evaluating vision-language models in industrial manufacturing scenarios, encompassing three core tasks and basic ablation studies.

创建时间：

2026-04-05

原始信息汇总

FORGE 数据集概述

数据集基本信息

数据集名称: FORGE (Fine-grained Multimodal Evaluation for Manufacturing Scenarios)
主要用途: 评估视觉-语言模型在工业制造异常检测任务上的性能
托管地址: https://huggingface.co/datasets/AI4Manufacturing/forge
相关链接:
- 项目网站: https://ai4manufacturing.github.io/forge-web/
- 论文: 未提供链接
- 数据集: https://huggingface.co/datasets/AI4Manufacturing/forge

核心评估任务

FORGE 包含三个核心任务以及空间定位消融研究。

任务1：错误模型检测

任务1 图像: 使用装配照片进行多项选择题形式的错误模型检测。支持零样本、少样本和上下文学习设置。
任务1 三视图: 使用渲染的三视图图像进行字母选择形式的错误模型检测。支持零样本、少样本和上下文学习设置。

任务2：异常分类

任务2 三视图: 使用渲染的三视图图像进行异常分类（判断是否正常及缺陷类型）。支持零样本、少样本和上下文学习设置。

任务3：多余/错误零件检测与缺失零件识别

任务3 图像: 使用装配照片进行多项选择题形式的多余/错误零件检测。支持零样本、少样本和上下文学习设置。
任务3 三视图: 使用渲染的三视图图像进行字母选择形式的多余/错误零件检测。支持零样本、少样本和上下文学习设置。
任务3 缺失零件图像: 使用装配照片进行多项选择题形式的缺失零件识别。支持零样本、少样本和上下文学习设置。
任务3 缺失零件三视图: 使用渲染的三视图图像进行多项选择题形式的缺失零件识别。支持零样本、少样本和上下文学习设置。

空间定位消融研究

空间定位任务: 评估坐标到字母或字母到坐标的映射能力。支持零样本、图像内上下文学习和跨图像上下文学习设置。
跨图像定位任务: 评估跨图像的零件匹配能力，包括字母到字母匹配和坐标到坐标匹配。

数据集配置详情

数据集在 HuggingFace 上提供多个配置，具体如下：

配置名称	案例数量	描述
`task1_image`	451	任务1装配照片，带定位点
`task1_three_view`	496	任务1三视图渲染图像
`task2_three_view`	830	任务2缺陷分类
`task3_image`	857	任务3多余零件装配照片
`task3_three_view`	309	任务3多余零件三视图
`task3_missing_part_image`	240	缺失零件装配照片
`task3_missing_part_three_view`	137	缺失零件三视图
`grounding_task_a_zero_shot`	500	坐标到字母（零样本）
`grounding_task_a_icl_within`	500	坐标到字母（图像内上下文学习）
`grounding_task_a_icl_outside`	500	坐标到字母（跨图像上下文学习）
`grounding_task_b_zero_shot`	500	字母到坐标（零样本）
`grounding_task_b_icl_within`	500	字母到坐标（图像内上下文学习）
`grounding_task_b_icl_outside`	500	字母到坐标（跨图像上下文学习）
`grounding_cross_letter_to_letter`	513	跨图像字母匹配
`grounding_cross_coord_to_coord`	513	跨图像坐标匹配

数据加载方式

可通过 datasets 库从 HuggingFace 加载数据。 python from datasets import load_dataset ds = load_dataset("AI4Manufacturing/forge", "task1_three_view", split="train")

评估框架支持

支持的后端模型

OpenRouter: 支持所有模型（GPT, Claude, Gemini 等），默认后端。
OpenAI: 支持 GPT-4o, o3 等模型。
Anthropic: 支持 Claude 系列模型。
Google: 支持 Gemini 系列模型。
vLLM: 支持本地部署的模型。

评估配置

通过 YAML 配置文件控制评估参数，包括模型名称、评估设置（零样本、少样本、上下文学习）、案例路径、温度、最大令牌数、参考图像数量、是否启用思维链推理等。

输出结果

每次评估会保存以下文件：

results.json: 精简结果（预测、准确率）。
results_full.pkl: 完整结果，包含原始 API 消息。
config_used.yaml: 使用的配置文件副本，用于复现。
logs/: 详细的执行日志目录。

引用

如需引用，请使用以下 BibTeX 条目： bibtex @article{jianforge2026, title={FORGE: A Benchmark for Manufacturing Anomaly Detection with VLMs}, author={Jian, Xiangru and Xu, Hao and Pang, Wei and Zhao, Xinjian and Tao, Chengyu and Zhang, Qixin and Zhang, Xikun and Zhang, Chao and Deng, Guanzhi and Xue, Alex and Du, Juan and Yu, Tianshu and Tarr, Garth and Sun, Qiuzhuang and Tao, Dacheng}, year={2026} }

搜集汇总

数据集介绍

构建方式

在智能制造与工业质检领域，视觉语言模型（VLMs）的评估亟需专业化基准。FORGE数据集通过系统化流程构建，涵盖装配错误检测、缺陷分类及零件识别三大核心任务，并辅以空间定位消融研究。其数据源自真实工业场景，包含照片与渲染三视图两种模态，每种任务均设计为零样本、少样本及上下文学习等多种评估设置，确保了评估维度的全面性与现实贴合度。

使用方法

研究者可通过Hugging Face平台便捷加载FORGE的任一任务配置。评估流程清晰规范：首先设置相应API密钥并利用配套工具将数据下载至本地；随后，通过执行预置的评估脚本，并搭配针对不同任务与学习范式的YAML配置文件，即可对各类视觉语言模型进行系统化测试。该框架支持OpenAI、Anthropic、Google及vLLM等多种后端，输出结果包含预测准确性、完整交互日志及可复现的配置副本，极大便利了性能对比与研究复现。

背景与挑战

背景概述

随着智能制造与工业自动化的飞速发展，视觉语言模型在复杂工业场景中的应用潜力日益凸显。FORGE数据集由来自多所国际知名高校的研究团队于2026年联合创建，旨在为制造业异常检测领域提供一个细粒度的多模态评估基准。该数据集聚焦于装配线中的错误模型识别、缺陷分类以及零件错装漏装等核心问题，通过整合真实照片与三维渲染图像，系统评估模型在零样本、少样本及上下文学习等多种设定下的性能。其构建不仅推动了视觉语言模型在工业质检中的实用化进程，也为相关算法的鲁棒性与泛化能力提供了严谨的量化标准。

当前挑战

FORGE数据集致力于解决制造业中视觉异常检测的固有挑战，包括细微缺陷的识别、多视角信息融合以及跨模态语义对齐。在构建过程中，研究团队面临数据采集与标注的复杂性，需在真实工业环境中获取高质量图像，并确保异常类型的多样性与标注一致性。同时，设计涵盖空间定位与跨图像匹配的评估任务，要求模型具备精确的视觉推理与细粒度理解能力，这对现有视觉语言模型的架构与训练范式提出了更高要求。

常用场景

经典使用场景

在智能制造与工业自动化领域，视觉-语言模型（VLMs）的评估亟需精细化的基准测试工具。FORGE数据集通过构建多模态制造异常检测任务，为研究者提供了经典的使用场景。其核心任务包括错误模型检测、缺陷分类以及多余或缺失零件识别，覆盖了从照片到渲染三视图的多种模态输入。这些任务在零样本、少样本和上下文学习等不同设置下进行评估，能够系统性地检验模型在复杂工业环境中的感知与推理能力，为模型性能的横向比较奠定了坚实基础。

解决学术问题

FORGE数据集旨在解决视觉-语言模型在专业垂直领域，特别是工业制造场景中，评估标准缺失的核心学术问题。传统通用视觉问答基准难以捕捉制造流程中细微的几何异常、装配错误及零件缺陷。该数据集通过引入基于空间坐标与字母标识的细粒度定位任务，以及跨图像零件匹配挑战，推动了模型在理解复杂空间关系与跨实例推理方面的研究。其意义在于建立了首个专注于制造异常检测的多模态评估框架，为领域适应性、小样本学习及模型可解释性等前沿方向提供了关键的实验平台与量化指标。

实际应用

FORGE数据集的设计紧密贴合工业生产的实际需求，其应用场景直接服务于智能制造的质量控制与自动化检测。在电子产品、汽车零部件或精密仪器的装配线上，系统需要实时识别装配错误、分类表面缺陷，并定位多余或缺失的零件。该数据集模拟了这些真实挑战，通过提供包含真实照片和标准工程视图的测试用例，能够评估并驱动视觉-语言模型在实际工业视觉检测系统中的应用潜力，助力实现更智能、更可靠的自动化质检流程，降低人工复检成本并提升生产良率。

数据集最近研究