OpenSeeSimE-Structural-Small

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/JessicaE/OpenSeeSimE-Structural-Small

下载链接

链接失效反馈

官方服务：

资源简介：

OpenSeeSimE-Structural-Small 是一个分层抽取的 10% 子集，源自 cmudrc/OpenSeeSimE-Structural 数据集，旨在以较低的计算成本评估视觉语言模型，同时保持仿真类型、问题类型、媒体类型和问题 ID 的联合分布。数据集包含 10,343 个样本，分为 4 个 Parquet 分片，存储大小约为 15.60 GB。数据来源包括 Beams、Dog Bone、Hip Implant、Pressure Vessel 和 Wall Bracket 五种仿真模型。数据集包含图像和视频两种媒体类型，分别有 5,192 和 5,151 个样本。每个样本包含文件名称、源文件、问题文本、问题类型、问题 ID、答案、答案选项、正确选项索引、图像或视频数据以及媒体类型等字段。该数据集适用于工程仿真问答任务的基准评估、评估管道的快速测试以及在存储或带宽受限情况下的比较研究。数据集采用 MIT 许可证，允许学术和商业使用，但需注明出处。

创建时间：

2026-04-23

原始信息汇总

数据集概述

OpenSeeSimE-Structural-Small 是 cmudrc/OpenSeeSimE-Structural 的分层 10% 子集，旨在降低评估视觉语言模型的计算资源消耗，同时保留仿真类型、问题类型、媒体类型和问题 ID 的联合分布。

基本信息

属性	内容
数据集大小	10,343 行（占父数据集的 10.07%）
任务类别	视觉问答（Visual Question Answering）
语言	英语
许可协议	MIT
存储大小	约 15.60 GB（4 个 Parquet 分片）
来源类别	Beams、Dog Bone、Hip Implant、Pressure Vessel、Wall Bracket

数据组成

按 `source_file`（仿真模型）分布

来源文件	行数	占比
Beams	2,088	20.19%
Pressure Vessel	2,074	20.05%
Dog Bone	2,061	19.93%
Hip Implant	2,060	19.92%
Wall Bracket	2,060	19.92%

按 `media_type`（媒体类型）分布

媒体类型	行数
图像 (image)	5,192
视频 (video)	5,151

按 `(source_file, question_type)` 交叉分布

来源文件	Binary	Multiple Choice	Spatial	总计
Beams	627	1,045	416	2,088
Dog Bone	619	1,030	412	2,061
Hip Implant	618	1,030	412	2,060
Pressure Vessel	622	1,040	412	2,074
Wall Bracket	618	1,030	412	2,060

特征模式

与父数据集相同，包含以下字段：

file_name（字符串）：唯一标识符
source_file（字符串）：基础仿真模型
question（字符串）：问题文本
question_type（字符串）：问题类型（Binary, Multiple Choice, Spatial）
question_id（整数）：问题标识符（1-20）
answer（字符串）：真实答案
answer_choices（字符串列表）：选项
correct_choice_idx（整数）：正确选项的索引
image（图像）：PIL 图像（1920x1440），视频行中为 null
video（视频）：视频字节，图像行中为 null
media_type（字符串）：image 或 video

采样方法

分层策略：按 (source_file, question_type, media_type, question_id) 四维联合分层
采样过程：对每个层级使用 numpy.random.default_rng(42) 打乱后，取 ceil(n * fraction) 行，非空层级至少贡献 1 行
嵌套性质：1% 子集是 10% 子集的文字子集（所有分数使用相同的打乱前缀）

预期用途

在降低计算成本的前提下，对视觉语言模型进行工程仿真问答的基准评估
在运行完整基准测试前对评估流程进行冒烟测试
在存储或带宽受限场景下进行对比研究

引用信息

bibtex @article{ezemba2024opensesime, title={OpenSeeSimE: A Large-Scale Benchmark to Assess Vision-Language Model Question Answering Capabilities in Engineering Simulations}, author={Ezemba, Jessica and Pohl, Jason and Tucker, Conrad and McComb, Christopher}, year={2025} }

联系方式

Jessica Ezemba — jezemba@andrew.cmu.edu
卡内基梅隆大学机械工程系

搜集汇总

数据集介绍

构建方式

OpenSeeSimE-Structural-Small数据集源于大型基准数据集cmudrc/OpenSeeSimE-Structural，通过分层抽样策略精心构建。其父数据集包含102,678条记录，涵盖Beams、Dog Bone、Hip Implant、Pressure Vessel及Wall Bracket五类工程仿真模型。研究人员以(source_file, question_type, media_type, question_id)四维联合分层，利用numpy.random.default_rng(42)进行每层随机洗牌后，按ceil(n * fraction)抽取样本，确保每个非空层至少贡献一条数据。最终形成10,343条记录，约占父数据集的10.07%，并保证1%子集是该子集的严格子集。

特点

该数据集具备显著的工程仿真领域特性与分层代表性。数据分布均匀，五类源文件各占约20%，图像与视频媒体类型近乎均等分配。问题类型涵盖Binary、Multiple Choice与Spatial三类，每类源文件下各类问题占比一致，体现了严谨的统计控制。每条样本包含完整特征：唯一标识符、仿真模型来源、问题文本、答案及选项、正确选项索引，以及图像或视频媒体数据。这一结构化设计使得数据集在缩小规模的同时，完美保持了父数据集的联合分布特征，适用于低计算资源下的可靠评估。

使用方法

该数据集主要面向视觉-语言模型在工程仿真问答领域的基准评估。用户可直接通过HuggingFace Datasets库加载，支持自动化pipeline的构建与测试。因其规模缩减至约10%，特别适合在完整基准运行前进行管线冒烟测试、模型快速验证，或在存储与带宽受限场景下开展对比研究。数据集采用MIT开源协议，学术与商业用途均可免费使用。使用时需引用相关论文，并可联系Carnegie Mellon大学研究团队获取更多支持。

背景与挑战

背景概述

OpenSeeSimE-Structural-Small数据集由卡内基梅隆大学机械工程系的Jessica Ezemba等研究人员于2025年创建，是大型工程仿真问答基准OpenSeeSimE-Structural的层化10%子集。该数据集旨在回应视觉语言模型在工程仿真领域评估中计算资源消耗过高的挑战，通过保留仿真类型、问题类型、媒体类型与问题ID的联合分布，为模型评估提供高效轻量级替代方案。其涵盖梁、狗骨试件、髋关节植入物、压力容器与墙体支架五类典型工程结构，包含超过一万个图像与视频样本，支持二元、多项选择与空间推理三类问题，为工程语义理解研究提供了标准化的测试平台。

当前挑战

该数据集面临的核心挑战源于工程仿真视觉问答的领域特殊性：首先，仿真图像与视频中结构变形、应力分布等抽象物理现象需模型具备跨模态的物理直觉，远超传统视觉任务；其次，层化采样策略虽降低计算成本，但10%子集对长尾仿真配置的覆盖可能不足，导致评估结果存在偏差。在构建过程中，从102,678条父数据集中按四维联合分布精确采样需设计公平的随机化协议，而每类工程结构在二进制、多项选择与空间问题上的非均匀分布进一步增加了分层的复杂性，同时需确保图像与视频媒体类型的平衡，以保障多模态评估的有效性。

常用场景

经典使用场景

在工程模拟与视觉-语言模型的交叉领域中，OpenSeeSimE-Structural-Small 数据集作为一套分层抽样的子集，为研究者提供了在降低计算开销的前提下评估模型性能的理想平台。该数据集涵盖五种典型工程结构（如梁、狗骨头试件、髋关节植入物等），包含图像与视频两种媒体形式，以及二元、多项选择和空间三类问题类型。其经典使用场景包括对视觉-语言模型在工程模拟问题回答任务上的基准测试，尤其适用于在有限计算资源下快速验证模型的基础能力，或作为全量数据集评估前的预实验工具。

解决学术问题

该数据集核心解决了工程领域视觉-语言模型评估中缺乏标准化、分层化基准的学术难题。传统数据集或规模过大导致计算成本高昂，或结构单一无法反映真实分布。OpenSeeSimE-Structural-Small 通过保留父数据集的联合分布特征（模拟类型、问题类型、媒体类型与问题编号），使研究者能在10%的数据量上获得与全量评估高度一致的评价结论。这推动了模型在工程模拟问答中的鲁棒性研究，为理解模型对不同结构、不同感知模态的推理差异提供了规范化的量化手段，深刻影响了工程设计智能化评估的范式。

衍生相关工作

基于此子集，已有研究探索了不同视觉-语言模型在工程模拟问答中的表现差异，催生了如模型对空间关系与二元逻辑推理的对比分析工作。此外，该数据集的分层抽样策略也被后续研究借鉴，用于构建其他工程或科学领域的低资源评估子集。卡内基梅隆大学团队在原始论文中提出的联合分布保持方法，启发了针对模拟数据分布偏移的鲁棒性研究，并推动了跨模态迁移学习在工程场景中的发展，进一步丰富了视觉-语言模型在专业领域的评价体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集