OpenSeeSimE-Fluid-Small

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/JessicaE/OpenSeeSimE-Fluid-Small

下载链接

链接失效反馈

官方服务：

资源简介：

OpenSeeSimE-Fluid-Small是cmudrc/OpenSeeSimE-Fluid数据集的10%分层子集，旨在以较低的计算成本评估视觉语言模型在工程仿真问答任务中的表现，同时保持仿真类型、问题类型、媒体类型和问题ID的联合分布。数据集包含9,881个样本，涵盖五种源文件类型（Bent Pipe、Converging Nozzle、Heat Exchanger、Heat Sink、Mixing Pipe），媒体类型包括图像（4,948）和视频（4,933）。每个样本包含文件名称、源文件、问题文本、问题类型、问题ID、答案、答案选项、正确答案索引、图像或视频数据以及媒体类型等字段。数据集适用于工程仿真问答的基准评估、评估管道的快速测试以及在存储或带宽受限情况下的比较研究。数据集采用MIT许可证，允许学术和商业使用。

创建时间：

2026-04-23

原始信息汇总

数据集概述

OpenSeeSimE-Fluid-Small 是 cmudrc/OpenSeeSimE-Fluid 的分层 10% 子集，专门用于在降低计算开销的同时评估视觉语言模型，同时保持模拟类型、问题类型、媒体类型和问题 ID 的联合分布。

子集来源

父数据集：cmudrc/OpenSeeSimE-Fluid（共 98,326 行）
本子集行数：9,881（占父数据集的 10.05%）
源模拟类：Bent Pipe、Converging Nozzle、Heat Exchanger、Heat Sink、Mixing Pipe
Parquet 分片数：19 | 存储大小：约 103.68 GB
采样方式：使用 numpy.random.default_rng(42) 对每个层进行随机打乱，然后取 ceil(n * fraction) 行，每个非空层至少贡献 1 行
分层键：(source_file, question_type, media_type, question_id) — 四个字段联合分层
嵌套关系：1% 子集是 10% 子集的字面子集（每个分数的随机前缀相同）

数据组成

按 `source_file` 分布

source_file	行数	占比 (%)
Mixing Pipe	2,070	20.95
Heat Exchanger	2,029	20.53
Bent Pipe	1,976	20.00
Converging Nozzle	1,971	19.95
Heat Sink	1,835	18.57

按 `media_type` 分布

media_type	行数
image	4,948
video	4,933

按 `(source_file, question_type)` 分布

source_file	二值	多项选择	空间	总计
Bent Pipe	792	796	388	1,976
Converging Nozzle	791	789	391	1,971
Heat Exchanger	812	811	406	2,029
Heat Sink	719	710	406	1,835
Mixing Pipe	828	828	414	2,070

特征模式

与父数据集相同，具体字段如下：

python { file_name: str, # 唯一标识符 source_file: str, # 基础模拟模型 question: str, # 问题文本 question_type: str, # Binary, Multiple Choice, Spatial question_id: int, # 问题标识符 (1-20) answer: str, # 真实答案 answer_choices: list[str], # 选项列表 correct_choice_idx: int, # 正确选项索引 image: Image, # PIL图像 (1920x1440)，视频行为空 video: Video, # 视频字节，图像行为空 media_type: str, # image 或 video }

预期用途

在降低计算成本的前提下，对视觉语言模型在工程模拟问答任务上进行基准评估
在运行完整基准测试前，对评估流程进行烟雾测试
在存储或带宽受限时进行比较研究

许可

MIT — 与父数据集相同，可免费用于学术和商业用途，需注明出处。

引用

bibtex @article{ezemba2024opensesime, title={OpenSeeSimE: A Large-Scale Benchmark to Assess Vision-Language Model Question Answering Capabilities in Engineering Simulations}, author={Ezemba, Jessica and Pohl, Jason and Tucker, Conrad and McComb, Christopher}, year={2025} }

联系方式

Jessica Ezemba — jezemba@andrew.cmu.edu
卡内基梅隆大学机械工程系

搜集汇总

数据集介绍

构建方式

OpenSeeSimE-Fluid-Small是对大规模工程仿真视觉问答数据集OpenSeeSimE-Fluid进行分层抽样的子集，旨在以较低的计算开销保持原始数据的多维分布特征。构建过程中，以(source_file, question_type, media_type, question_id)四元组为分层依据，使用固定随机种子对每个层内样本进行洗牌后，按10%比例抽取ceil(n * fraction)条记录，确保每层至少包含一条样本。该子集包含来自五种仿真模型——弯管、收敛喷嘴、换热器、散热器和混合管——的9,881条样本，约占父数据集的10.05%。通过保留仿真类型、问题类型、媒体类型和问题ID的联合分布，该子集在缩减数据规模的同时，有效维持了评估的统计代表性。

特点

该子集在数据组成上呈现出均衡的多样性与代表性。仿真来源方面，五种模型样本量分布均匀，占比介于18.57%至20.95%之间，避免了单一模型主导。媒体类型上，图像与视频样本近乎各占一半，分别为4,948条和4,933条，便于跨模态能力评估。问题类型涵盖二元判断、多项选择和空间推理三类，每种仿真模型下三类问题的数量比例接近，确保了任务维度的平衡。此外，该子集作为10%分层抽样结果，与1%子集存在严格的嵌套包含关系，支持多尺度对比实验。所有样本保留与父数据集完全一致的特征模式，包括唯一标识、仿真源文件、问题文本、答案选项及媒体数据。

使用方法

该数据集主要面向工程仿真领域视觉语言模型的基准评估与快速验证。用户可通过HuggingFace的datasets库直接加载，指定config_name为default即可获取包含9,881条样本的测试集。每个样本包含图像或视频媒体数据、问题文本及对应的正确答案索引，支持多模态问答任务的模型推理与指标计算。由于数据规模仅为父数据集的10%，该子集特别适用于在计算资源受限环境下的管道测试、模型原型验证以及跨模型对比研究。使用时需注意部分样本为图像、部分为视频，需根据media_type字段相应处理媒体输入。数据集采用MIT许可证，允许学术与商业用途的自由使用与分发。

背景与挑战

背景概述

OpenSeeSimE-Fluid-Small数据集由卡内基梅隆大学机械工程系的Jessica Ezemba、Jason Pohl、Conrad Tucker和Christopher McComb于2025年创建，是源于OpenSeeSimE-Fluid完整数据集的一个分层子集，旨在为工程仿真领域中的视觉-语言模型（VLM）评估提供高效资源。该数据集聚焦于流体仿真场景，涵盖弯管、收敛喷嘴、热交换器、散热器和混合管五类工程模型，包含9881个样本，涉及二元分类、多项选择和空间推理等题型。其核心研究问题是评估VLM在工程仿真问答中的能力，通过保持仿真类型、问题类型、媒体类型和问题标识的联合分布，显著降低计算开销，成为该领域基准测试的重要工具，对推动AI在工程设计与仿真中的应用具有深远影响。

当前挑战

该数据集的核心挑战在于解决工程仿真领域中视觉-语言模型理解复杂物理情境的难题，包括从仿真图像或视频中准确识别流体行为、回答涉及空间关系和因果推理的问题。此外，构建过程中面临样本平衡与代表性的挑战：需通过分层采样技术确保5类仿真源、2种媒体类型（图像/视频）及3种问题类型的联合分布得以保留，同时控制子集规模仅为原始数据的10%，避免欠采样导致关键模式丢失。数据生成还涉及仿真模型的标准化、地面真值提取及多模态对齐，每一环节均需精密设计以维护数据的科学性与可用性，保障模型评估的公平性与鲁棒性。

常用场景

经典使用场景

在工程仿真这一专业性极强的视觉语言理解领域，OpenSeeSimE-Fluid-Small 数据集被设计为大规模全量基准测试的高效替代方案。其最经典的用途在于，为视觉语言模型评估提供了一条低计算成本的验证路径。通过分层随机采样的策略，该数据集在保留原始全量数据中仿真类型、问题类型、媒体类型和问题标识联合分布的前提下，将数据量压缩至10%，使得研究人员能够在几分钟内完成对模型在工程仿真问答任务上的初步性能评估。尤为重要的是，该数据集嵌套了1%子集，为评估管线的快速冒烟测试提供了便利，从而显著加速了学术研究的迭代周期。

解决学术问题

该数据集的核心学术贡献在于解决了大规模多模态基准测试在工程仿真领域的两重挑战：高昂的计算资源消耗与复杂数据分布带来的评估偏差。以往对视觉语言模型的全面评估往往需要处理数万乃至数十万样本，这不仅对算力提出苛刻要求，还可能因为分布不均而产生误导性的性能指标。OpenSeeSimE-Fluid-Small通过严格的分层抽样技术，确保了子集与全量数据集在关键维度上的分布一致性，从而在不牺牲统计效力的前提下，实现了对模型在弯管、渐缩喷嘴、换热器等五种典型流体仿真场景中的问答能力的可靠度量。这一方法为建立可复现、低门槛的学术评估标准提供了重要范例。

衍生相关工作

OpenSeeSimE-Fluid-Small的发布直接催生了一系列围绕工程仿真多模态理解的前沿工作。基于其分层子集架构，学界涌现出关于模型在不同仿真类型（如弯管流动与热沉散热）间迁移能力的比较研究，以及问题类型（二分类、多项选择、空间推理）对模型表现影响的深入剖析。此外，该数据集还推动了低成本模型诊断工具的开发，例如通过在其子集上进行快速微调，研究者得以探索视觉语言模型对流体仿真图像的理解边界。同时，其嵌套采样的设计理念也启发了其他领域基准测试子集的构建方法，促使学界重新思考在资源受限条件下如何保持评估的科学性与公平性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集