ship-dataset

Hugging Face2026-05-11 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/Anonymous1383/ship-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ShipBench是一个基于参数化生成的船舶结构图纸的元数据锚定视觉语言基准测试数据集，旨在评估视觉语言模型在船舶结构工程图纸上的推理能力。数据集包含6种商业船型（油轮、VLCC、散货船、集装箱船、LNG运输船、LPG运输船）和9个基于图纸的子任务（包括船型识别、扶强材类型、板厚、扶强材尺寸、货舱容积、命名板剖面面积、舱室定位、舱室边界、舱壁位置）。数据规模为6450个候选设计，每个设计包含剖面图和舱室图两个视角的PNG图像，总计12900张图像。核心基准测试包含5346个QA项（基于594个测试候选设计×9个子任务）。数据集在候选设计级别按照80/10/10的比例进行了分层划分（按船型，随机种子为42），具体划分为训练集5160个、验证集642个、测试集648个。所有任务的确定性真值均直接来源于生成器的输入字典和恢复的几何数据，无需人工标注。数据集还包含多个任务变体文件和预计算的模型预测结果及统计分析。

ShipBench is a metadata-anchored visual language benchmark dataset based on parametrically generated ship structural drawings, designed to evaluate the reasoning capabilities of visual language models on ship structural engineering drawings. The dataset includes 6 commercial ship types (oil tanker, VLCC, bulk carrier, container ship, LNG carrier, LPG carrier) and 9 subtasks based on drawings (A1: ship type identification, A2: stiffener type, B1: plate thickness, B2: stiffener dimensions, B3: cargo hold volume, B4: named plate cross-sectional area, C1: compartment localization, C2: compartment boundaries, C3: bulkhead positions). The data scale consists of 6450 candidate designs, each containing PNG images from two perspectives (section view and compartment view), totaling 12,900 images. The core benchmark includes 5346 QA items (594 test candidate designs × 9 subtasks). The dataset is stratified at the candidate design level with an 80/10/10 split (by ship type, random seed 42), specifically divided into 5160 training, 642 validation, and 648 test sets. The deterministic ground truth for all tasks is directly derived from the generators input dictionary and recovered geometric data, requiring no manual annotation. The dataset also includes multiple task variant files and precomputed model predictions with statistical analysis.

创建时间：

2026-05-06

搜集汇总

数据集介绍

构建方式

ShipBench 是一个面向船舶结构推理的视觉语言基准数据集，其构建基于参数化生成的船舶结构图纸。数据集覆盖了六种商业船型，并设计了九种基于图纸的子任务。所有数据通过参数化生成器的输入字典直接导出确定性标注，避免了人工标注和规则引用标签的偏差。数据集的图像部分包含每个候选样本的剖面图和舱室图，共12,900张PNG图像。数据集通过80/10/10的比例分割为训练、验证和测试集，并在船型层面进行分层采样，确保分布的均衡性。

使用方法

用户可通过Hugging Face平台直接加载数据集，使用如`datasets.load_dataset`方法指定配置名称（如`main_eval`）来获取特定任务的数据。每个任务记录包含问题、图像路径和元数据字段，适用于多选问答或数值回归任务。预测输出可与提供的基线模型日志进行对比，支持零样本和微调评估。代码库中的示例脚本可复现论文中的统计结果，大幅降低了基准测试的复现成本。

背景与挑战

背景概述

船舶结构设计是海洋工程领域的核心环节，其复杂性体现在从设计图纸到最终建造的每一处细节，迫切需要能够精细化理解工程图纸的智能模型。ShipBench数据集应运而生，由相关研究团队于2026年在NeurIPS数据集与基准测试轨道上正式发布，旨在填补视觉-语言模型在工程制图结构化推理方面的评估空白。该数据集围绕六种商用船型（如油轮、液化天然气船等），通过参数化生成船舶结构图纸，并构建了覆盖9项子任务的视觉问答基准，所有答案均源自生成器输入字典，确保了标注的确定性与无偏性。ShipBench的提出为评估前沿视觉语言模型对工程图纸的深层语义理解提供了一个严谨而专业的基准框架，对推动船舶智能化设计与辅助决策研究具有里程碑式的影响。

当前挑战

ShipBench数据集所应对的核心领域挑战在于，现有视觉语言模型多聚焦于自然图像理解，面对大量包含专业符号、尺寸标注与抽象构型的工程制图时，模型表现往往差强人意，亟需一个能够系统衡量模型在结构化、多尺度工程场景下推理能力的基准。在构建过程中，如何以参数化方式生成覆盖多样性船型且物理合理的结构图纸是一大难点，团队需确保每个舱段、加强筋、边界等构件的位置与尺寸既符合工程规范又具备视觉多样性。此外，设计9个跨船型子任务要求对问题-答案对应关系进行高度精细化设计，并清晰划分不同推理难度层次，同时避免因人类标注主观性引起的数据偏差，构成了数据构建过程中的另一严峻挑战。

常用场景

经典使用场景

ShipBench数据集专为评估视觉语言模型在船舶结构图纸理解与推理任务上的能力而设计，其经典使用场景聚焦于多模态基准测试。研究者可利用该数据集提供的参数化生成船舶结构图纸（涵盖六种商船类型）与九种基于图纸的细粒度子任务（如板厚识别、舱室定位、纵骨位置判断等），系统性地评测VLM在工程图纸领域的空间推理、数值估算与结构解析等核心能力。该数据集凭借确定性真值（直接源于生成器输入字典，无人工标注）和标准化评估指标（如容差范围内的精确匹配），为领域模型性能提供了严谨、可复现的评测框架。

解决学术问题

该数据集有效解决了工程图纸领域缺乏高质量、结构化的VLM评估基准这一关键学术难题。传统基准多聚焦自然图像或通用视觉问答，难以衡量模型对复杂工程制图规范的遵循程度与细粒度空间推理能力。ShipBench通过精心设计的九项子任务，系统考察了模型在船体结构识别（如舱段类型分类）、尺寸参数估算（如板厚、骨材尺寸）、与系统级空间关系推理（如舱室边界定位）等多个维度的能力。其公开的模型预测日志与配对统计分析工具（如Bootstrap、McNemar检验），使得研究者能够进行严格的模型比较与能力解构分析，推动了工程视觉语言理解这一交叉领域的方法论发展。

实际应用

在实际应用中，ShipBench所评测的能力直接服务于船舶设计、建造与检验等多个工业环节。具备高精度结构推理能力的视觉语言模型可辅助工程师自动解析船舶图纸中的关键参数（如舱容、板厚、构件尺寸），大幅缩短设计复核周期；在船舶检验场景中，模型可配合现场图像自动比对图纸规范，实现结构合规性的快速初筛。此外，该基准的合成数据生成方法与评估流水线可为船舶设计软件公司、船级社（如KR、IACS）开发定制化的智能图纸审查工具提供可直接迁移的技术路径与性能参考。

数据集最近研究