five

FORGE

收藏
github2026-04-09 更新2026-04-14 收录
下载链接:
https://github.com/AI4Manufacturing/FORGE
下载链接
链接失效反馈
官方服务:
资源简介:
FORGE是一个用于工业制造场景中视觉语言模型评估的细粒度多模态数据集,涵盖了三个核心任务以及基础消融研究。

FORGE is a fine-grained multimodal dataset dedicated to evaluating vision-language models in industrial manufacturing scenarios, encompassing three core tasks and basic ablation studies.
创建时间:
2026-04-05
原始信息汇总

FORGE 数据集概述

数据集基本信息

  • 数据集名称: FORGE (Fine-grained Multimodal Evaluation for Manufacturing Scenarios)
  • 主要用途: 评估视觉-语言模型在工业制造异常检测任务上的性能
  • 托管地址: https://huggingface.co/datasets/AI4Manufacturing/forge
  • 相关链接:
    • 项目网站: https://ai4manufacturing.github.io/forge-web/
    • 论文: 未提供链接
    • 数据集: https://huggingface.co/datasets/AI4Manufacturing/forge

核心评估任务

FORGE 包含三个核心任务以及空间定位消融研究。

任务1:错误模型检测

  • 任务1 图像: 使用装配照片进行多项选择题形式的错误模型检测。支持零样本、少样本和上下文学习设置。
  • 任务1 三视图: 使用渲染的三视图图像进行字母选择形式的错误模型检测。支持零样本、少样本和上下文学习设置。

任务2:异常分类

  • 任务2 三视图: 使用渲染的三视图图像进行异常分类(判断是否正常及缺陷类型)。支持零样本、少样本和上下文学习设置。

任务3:多余/错误零件检测与缺失零件识别

  • 任务3 图像: 使用装配照片进行多项选择题形式的多余/错误零件检测。支持零样本、少样本和上下文学习设置。
  • 任务3 三视图: 使用渲染的三视图图像进行字母选择形式的多余/错误零件检测。支持零样本、少样本和上下文学习设置。
  • 任务3 缺失零件图像: 使用装配照片进行多项选择题形式的缺失零件识别。支持零样本、少样本和上下文学习设置。
  • 任务3 缺失零件三视图: 使用渲染的三视图图像进行多项选择题形式的缺失零件识别。支持零样本、少样本和上下文学习设置。

空间定位消融研究

  • 空间定位任务: 评估坐标到字母或字母到坐标的映射能力。支持零样本、图像内上下文学习和跨图像上下文学习设置。
  • 跨图像定位任务: 评估跨图像的零件匹配能力,包括字母到字母匹配和坐标到坐标匹配。

数据集配置详情

数据集在 HuggingFace 上提供多个配置,具体如下:

配置名称 案例数量 描述
task1_image 451 任务1装配照片,带定位点
task1_three_view 496 任务1三视图渲染图像
task2_three_view 830 任务2缺陷分类
task3_image 857 任务3多余零件装配照片
task3_three_view 309 任务3多余零件三视图
task3_missing_part_image 240 缺失零件装配照片
task3_missing_part_three_view 137 缺失零件三视图
grounding_task_a_zero_shot 500 坐标到字母(零样本)
grounding_task_a_icl_within 500 坐标到字母(图像内上下文学习)
grounding_task_a_icl_outside 500 坐标到字母(跨图像上下文学习)
grounding_task_b_zero_shot 500 字母到坐标(零样本)
grounding_task_b_icl_within 500 字母到坐标(图像内上下文学习)
grounding_task_b_icl_outside 500 字母到坐标(跨图像上下文学习)
grounding_cross_letter_to_letter 513 跨图像字母匹配
grounding_cross_coord_to_coord 513 跨图像坐标匹配

数据加载方式

可通过 datasets 库从 HuggingFace 加载数据。 python from datasets import load_dataset ds = load_dataset("AI4Manufacturing/forge", "task1_three_view", split="train")

评估框架支持

支持的后端模型

  • OpenRouter: 支持所有模型(GPT, Claude, Gemini 等),默认后端。
  • OpenAI: 支持 GPT-4o, o3 等模型。
  • Anthropic: 支持 Claude 系列模型。
  • Google: 支持 Gemini 系列模型。
  • vLLM: 支持本地部署的模型。

评估配置

通过 YAML 配置文件控制评估参数,包括模型名称、评估设置(零样本、少样本、上下文学习)、案例路径、温度、最大令牌数、参考图像数量、是否启用思维链推理等。

输出结果

每次评估会保存以下文件:

  • results.json: 精简结果(预测、准确率)。
  • results_full.pkl: 完整结果,包含原始 API 消息。
  • config_used.yaml: 使用的配置文件副本,用于复现。
  • logs/: 详细的执行日志目录。

引用

如需引用,请使用以下 BibTeX 条目: bibtex @article{jianforge2026, title={FORGE: A Benchmark for Manufacturing Anomaly Detection with VLMs}, author={Jian, Xiangru and Xu, Hao and Pang, Wei and Zhao, Xinjian and Tao, Chengyu and Zhang, Qixin and Zhang, Xikun and Zhang, Chao and Deng, Guanzhi and Xue, Alex and Du, Juan and Yu, Tianshu and Tarr, Garth and Sun, Qiuzhuang and Tao, Dacheng}, year={2026} }

搜集汇总
数据集介绍
main_image_url
构建方式
在智能制造与工业质检领域,视觉语言模型(VLMs)的评估亟需专业化基准。FORGE数据集通过系统化流程构建,涵盖装配错误检测、缺陷分类及零件识别三大核心任务,并辅以空间定位消融研究。其数据源自真实工业场景,包含照片与渲染三视图两种模态,每种任务均设计为零样本、少样本及上下文学习等多种评估设置,确保了评估维度的全面性与现实贴合度。
使用方法
研究者可通过Hugging Face平台便捷加载FORGE的任一任务配置。评估流程清晰规范:首先设置相应API密钥并利用配套工具将数据下载至本地;随后,通过执行预置的评估脚本,并搭配针对不同任务与学习范式的YAML配置文件,即可对各类视觉语言模型进行系统化测试。该框架支持OpenAI、Anthropic、Google及vLLM等多种后端,输出结果包含预测准确性、完整交互日志及可复现的配置副本,极大便利了性能对比与研究复现。
背景与挑战
背景概述
随着智能制造与工业自动化的飞速发展,视觉语言模型在复杂工业场景中的应用潜力日益凸显。FORGE数据集由来自多所国际知名高校的研究团队于2026年联合创建,旨在为制造业异常检测领域提供一个细粒度的多模态评估基准。该数据集聚焦于装配线中的错误模型识别、缺陷分类以及零件错装漏装等核心问题,通过整合真实照片与三维渲染图像,系统评估模型在零样本、少样本及上下文学习等多种设定下的性能。其构建不仅推动了视觉语言模型在工业质检中的实用化进程,也为相关算法的鲁棒性与泛化能力提供了严谨的量化标准。
当前挑战
FORGE数据集致力于解决制造业中视觉异常检测的固有挑战,包括细微缺陷的识别、多视角信息融合以及跨模态语义对齐。在构建过程中,研究团队面临数据采集与标注的复杂性,需在真实工业环境中获取高质量图像,并确保异常类型的多样性与标注一致性。同时,设计涵盖空间定位与跨图像匹配的评估任务,要求模型具备精确的视觉推理与细粒度理解能力,这对现有视觉语言模型的架构与训练范式提出了更高要求。
常用场景
经典使用场景
在智能制造与工业自动化领域,视觉-语言模型(VLMs)的评估亟需精细化的基准测试工具。FORGE数据集通过构建多模态制造异常检测任务,为研究者提供了经典的使用场景。其核心任务包括错误模型检测、缺陷分类以及多余或缺失零件识别,覆盖了从照片到渲染三视图的多种模态输入。这些任务在零样本、少样本和上下文学习等不同设置下进行评估,能够系统性地检验模型在复杂工业环境中的感知与推理能力,为模型性能的横向比较奠定了坚实基础。
解决学术问题
FORGE数据集旨在解决视觉-语言模型在专业垂直领域,特别是工业制造场景中,评估标准缺失的核心学术问题。传统通用视觉问答基准难以捕捉制造流程中细微的几何异常、装配错误及零件缺陷。该数据集通过引入基于空间坐标与字母标识的细粒度定位任务,以及跨图像零件匹配挑战,推动了模型在理解复杂空间关系与跨实例推理方面的研究。其意义在于建立了首个专注于制造异常检测的多模态评估框架,为领域适应性、小样本学习及模型可解释性等前沿方向提供了关键的实验平台与量化指标。
实际应用
FORGE数据集的设计紧密贴合工业生产的实际需求,其应用场景直接服务于智能制造的质量控制与自动化检测。在电子产品、汽车零部件或精密仪器的装配线上,系统需要实时识别装配错误、分类表面缺陷,并定位多余或缺失的零件。该数据集模拟了这些真实挑战,通过提供包含真实照片和标准工程视图的测试用例,能够评估并驱动视觉-语言模型在实际工业视觉检测系统中的应用潜力,助力实现更智能、更可靠的自动化质检流程,降低人工复检成本并提升生产良率。
数据集最近研究
最新研究方向
在智能制造与工业质检领域,视觉-语言模型(VLMs)的评估正朝着细粒度、多模态方向深化。FORGE数据集作为该领域的前沿基准,聚焦于制造场景下的异常检测,其最新研究围绕三大核心任务展开:错误模型识别、缺陷分类以及多余或缺失零件检测。这些任务不仅涵盖照片与渲染图像的双重模态,还引入了零样本、少样本及上下文学习等多种评估设置,旨在系统检验模型在复杂工业环境中的泛化与推理能力。尤为值得关注的是,数据集设计了空间 grounding 与跨图像零件匹配的消融研究,这直接呼应了当前工业人工智能对模型可解释性与精确空间理解的热点需求。相关研究正推动 VLMs 超越通用场景,向专业化、高可靠性的工业应用迈进,为智能质检系统的自主决策与缺陷溯源提供了关键的技术验证平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作