five

MeshLex-Data-Source

收藏
Hugging Face2026-04-10 更新2026-04-11 收录
下载链接:
https://huggingface.co/datasets/Pthahnix/MeshLex-Data-Source
下载链接
链接失效反馈
官方服务:
资源简介:
MeshLex-Data-Source 是一个大规模的三维几何网格数据集,包含来自四个主要3D数据集(ABO、ShapeNet、Objaverse和3D-FRONT)的158,588个纯几何GLB网格文件(总计281.5 GB)。该数据集作为MeshLex研究项目的数据源层构建,但也广泛适用于任何3D网格生成、重建或分析研究。所有网格文件均为几何专用格式,移除了材质、纹理和非几何元数据,仅包含顶点和面信息。数据集按来源分片存储,每个分片最多包含10,000个文件,以符合HuggingFace的目录文件限制。数据集提供了详细的统计信息,包括每个来源的文件数量、大小、类别分布以及面和顶点的中位数和范围。此外,数据集还包含了使用示例、处理流程、限制说明和许可信息,适用于研究和教育用途。

MeshLex-Data-Source is a large-scale 3D geometric mesh dataset containing 158,588 purely geometric GLB mesh files (totaling 281.5 GB) sourced from four major 3D datasets: ABO, ShapeNet, Objaverse, and 3D-FRONT. Constructed as the data source layer of the MeshLex research project, this dataset is also widely applicable to any research related to 3D mesh generation, reconstruction, or analysis. All mesh files adhere to a geometry-exclusive format, where materials, textures, and non-geometric metadata have been stripped, retaining only vertex and face data. The dataset is stored in source-based shards, with each shard containing up to 10,000 files to comply with the directory file limits of HuggingFace. The dataset provides detailed statistical information, including the number of files, total size, category distribution, as well as the median values and value ranges of face and vertex counts for each source. In addition, the dataset also includes usage examples, processing workflows, limitation statements, and licensing information, and is intended for research and educational purposes.
创建时间:
2026-04-09
原始信息汇总

MeshLex-Data-Source 数据集概述

数据集基本信息

  • 名称: MeshLex-Data-Source
  • 规模: 100K<n<1M
  • 总文件数: 158,588 个几何网格文件
  • 总大小: 281.5 GB
  • 格式: 几何专用 GLB 文件
  • 任务类别: 文本到3D、图像到3D
  • 标签: 3D、网格、glb、几何、objaverse、shapenet、abo、3d-front、meshlex
  • 许可证: 混合来源

数据构成与统计

数据集整合了来自四个主要3D数据源的几何网格。

各来源数据统计

数据源 文件数量 数据大小 类别数量 面数中位数 顶点数中位数
ABO 7,952 6.4 GB 18,239 10,990
ShapeNet 52,472 35.9 GB 55 7,037 6,586
Objaverse 45,975 155.1 GB 1,156 14,956 11,775
3D-Front 52,189 84.1 GB 19,121 44,347 54,227
总计 158,588 281.5 GB 20,332 18,584 17,288

面数分布

数据源 最小值 中位数 平均值 最大值
ABO 20 18,239 42,448 11,540,224
ShapeNet 16 7,037 30,046 4,443,092
Objaverse 4 14,956 153,404 20,818,039
3D-Front 4 44,347 59,642 3,361,058

顶点数分布

数据源 最小值 中位数 平均值 最大值
ABO 56 10,990 24,386 5,870,562
ShapeNet 20 6,586 26,913 6,163,387
Objaverse 8 11,775 127,680 15,398,448
3D-Front 6 54,227 74,556 5,206,898

主要类别分布(跨所有来源前10)

类别 数据源 数量
table ShapeNet 8,436
chair ShapeNet 6,778
Cabinet 3D-Front 5,041
airplane ShapeNet 4,045
car ShapeNet 3,514
sofa ShapeNet 3,173
Sofa 3D-Front 1,928
Lighting 3D-Front 1,795
Others 3D-Front 1,726
Chair 3D-Front 1,357

数据来源与处理

Amazon Berkeley Objects (ABO)

  • 来源: https://amazon-berkeley-objects.s3.amazonaws.com/index.html
  • 处理: 下载GLB → 通过trimesh提取几何 → 过滤退化网格(面数<4的移除)
  • 许可证: CC-BY 4.0 (https://creativecommons.org/licenses/by/4.0/)
  • 统计: 7,952个网格(1个转换失败)。面数范围从20到1,150万(中位数18K)。

ShapeNetCore v2

  • 来源: https://shapenet.org/
  • 处理: OBJ模型 → 使用force="mesh"加载到trimesh → 导出为几何专用GLB
  • 许可证: ShapeNet使用条款 (https://shapenet.org/terms) — 仅限研究和教育用途
  • 统计: 52,472个网格,涵盖55个类别。主要类别:桌子 (8,436)、椅子 (6,778)、飞机 (4,045)、汽车 (3,514)、沙发 (3,173)。

Objaverse-LVIS

  • 来源: https://objaverse.allenai.org/ — 大规模众包3D资产集合,过滤至LVIS子集(具有LVIS类别标注的对象)
  • 处理: 通过objaverse Python包下载 → GLB转换 → 几何提取 → 退化网格过滤
  • 许可证: 各个对象有其自己的许可证;大多数为CC-BY 4.0 (https://creativecommons.org/licenses/by/4.0/)。详情见Objaverse许可证页面 (https://objaverse.allenai.org/objaverse-1.0)。
  • 统计: 45,975个网格,涵盖1,156个LVIS类别。主要类别:椅子 (453)、海贝壳 (370)、天线 (174)、盾牌 (146)、雪人 (145)。

3D-FRONT

  • 来源: https://tianchi.aliyun.com/specials/promotion/alibaba-3d-scene-dataset — 大规模室内场景数据集
  • 处理: 连接tar.gz部分 → 通过tarfile流式提取 → 基于UUID的家具模型去重 → 几何专用GLB转换
  • 许可证: 3D-FRONT使用条款 (https://tianchi.aliyun.com/specials/promotion/alibaba-3d-scene-dataset) — 仅限学术和研究用途
  • 统计: 从场景数据中去重后得到52,189个独特的家具模型,涵盖19,121个模型类别。主要类别:Cabinet (5,041)、Sofa (1,928)、Lighting (1,795)、Chair (1,357)。

数据处理流程

数据集由MeshLex v5.1流程生成:

  1. 下载 每个来源的原始3D资产(GLB、OBJ或tar.gz)
  2. 加载 通过trimesh并使用force="mesh"将场景图折叠为单个网格
  3. 剥离 材质、纹理、法线和UV坐标 — 仅保留顶点和面
  4. 过滤 退化网格(面数 < 4)
  5. 去重 (仅3D-Front:跨场景基于UUID的模型去重)
  6. 导出 为几何专用GLB
  7. 上传 分片批次至HuggingFace(每次提交500个文件)

目录结构

文件按来源组织,并分片存储以符合HuggingFace的目录文件数量限制。

data-abo/ 00/ # 分片0: 索引 0–9999 00000-of-07952.glb 00001-of-07952.glb ... data-shapenet/ 00/ # 分片0: 索引 0–9999 01/ # 分片1: 索引 10000–19999 ... 05/ # 分片5: 索引 50000–52471 data-objaverse/ 00/ ... 04/ data-3d-front/ 00/ ... 05/

  • 命名规则: {index:05d}-of-{total:05d}.glb
  • 分片: 文件被分割成最多包含10,000个文件的子目录(分片 = 索引 // 10000)。
  • 本地扁平布局: 下载后,原始扁平文件名遵循模式 {source}-{index:05d}-of-{total:05d}.glb(例如,shapenet-00123-of-52472.glb)。

使用方式

快速开始

使用huggingface_hub下载单个网格并用trimesh加载。

按来源浏览

使用HfApi列出特定来源目录下的文件。

批量下载

使用snapshot_download下载整个来源的数据。

加载与检查

使用trimesh加载网格并检查其顶点和面数。

许可证信息

数据集聚合了来自多个来源的网格,每个来源有其自己的许可证:

来源 许可证 商业用途
ABO CC-BY 4.0 允许
ShapeNet ShapeNet使用条款 不允许(仅限研究)
Objaverse 按对象(大多数为CC-BY 4.0) 视情况而定
3D-Front 3D-FRONT使用条款 不允许(仅限研究)

重要提示: 由于ShapeNet和3D-Front的限制,整个数据集应被视为仅限研究和教育用途。如需商业用途数据,请筛选出具有兼容许可证的ABO和Objaverse子集。

处理流程代码基于Apache 2.0许可证 (https://github.com/Pthahnix/MeshLex-Research/blob/main/LICENSE)。

局限性

  • 仅几何信息: 所有材质、纹理和颜色信息已被移除。这些网格在不重新纹理化的情况下不适合渲染。
  • 未应用简化: 网格保留其原始多边形数量,差异很大(4到2000万面)。下游流程应应用自己的简化策略。
  • 质量不一: 来源数据集具有不同水平的网格质量。一些网格可能非流形、有自相交或包含断开连接的组件。
  • 类别覆盖: 在此版本中,ABO网格缺少类别标签(标记为“未知”)。

引用

如果研究中使用此数据集,请引用提供的BibTeX条目,并同时引用原始数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
在三维几何数据处理领域,数据集的构建质量直接影响着生成与重建任务的性能。MeshLex-Data-Source 数据集通过系统化的处理流程,整合了来自四大权威三维数据集(ABO、ShapeNet、Objaverse-LVIS 和 3D-FRONT)的原始模型。其构建过程首先从各来源下载原始三维资产,随后利用 trimesh 库以 `force="mesh"` 参数加载,将场景图简化为单一网格,并剥离了材质、纹理、法线和 UV 坐标等非几何信息,仅保留顶点与面片数据。为保障数据质量,处理流程还过滤了面片数少于 4 的退化网格,并对 3D-FRONT 数据基于 UUID 进行了模型去重。最终,所有网格均被导出为纯几何的 GLB 格式文件,并采用分片目录结构组织,以适应平台存储限制,从而形成了一个包含 158,588 个网格、总计 281.5 GB 的大规模统一集合。
特点
该数据集的核心特征在于其纯粹性与多样性。所有网格均被处理为仅包含几何信息的 GLB 文件,移除了渲染相关的材质与纹理,这为专注于几何生成、重建与分析的研究提供了纯净的数据基础。数据来源的多样性构成了另一大特点,它汇聚了来自真实商品(ABO)、学术模型库(ShapeNet)、众包资产(Objaverse)以及室内场景家具(3D-FRONT)的模型,覆盖了从日常物品到复杂室内组件的广泛类别,总计超过两万个类别标签。网格的几何复杂度分布广泛,面片数量从数个到数千万不等,中位数约为 1.8 万,这为算法在不同细节层次上的鲁棒性测试提供了丰富谱系。数据集采用的分片存储结构与统一的命名规范,也极大便利了大规模数据的程序化访问与管理。
使用方法
对于希望利用该数据集的研究者,可通过 Hugging Face Hub 提供的多种接口灵活访问。最直接的方式是使用 `hf_hub_download` 函数下载单个网格文件,并配合 trimesh 库加载进行快速检查与分析。若需获取特定来源的全部数据,则可使用 `snapshot_download` 函数,通过 `allow_patterns` 参数指定如 `"data-shapenet/**"` 的路径模式进行批量下载。此外,利用 `HfApi` 接口可以浏览仓库的目录树结构,枚举特定分片下的所有文件,便于进行数据集的探索与元数据收集。加载后的网格对象可直接用于计算几何特征、训练生成模型或作为三维重建任务的基准数据,但需注意数据集仅包含几何信息,且部分来源限制于非商业研究用途。
背景与挑战
背景概述
三维几何数据处理是计算机视觉与图形学领域的核心研究方向,旨在推动三维模型的生成、重建与分析技术。MeshLex-Data-Source数据集于2026年由Pthahnix研究团队构建,作为MeshLex研究项目的数据基础层,整合了来自ABO、ShapeNet、Objaverse-LVIS及3D-FRONT四大知名三维数据源的158,588个纯几何GLB网格模型,总计容量达281.5 GB。该数据集通过统一处理流程剥离了材质与纹理信息,专注于顶点与面片数据,为三维网格的生成与理解提供了大规模、多源异构的标准化资源,显著促进了三维深度学习模型在几何表征学习方面的进展。
当前挑战
在三维几何数据处理领域,MeshLex-Data-Source致力于解决多源三维模型统一表征与高效利用的难题,其核心挑战在于处理大规模异构网格的几何复杂性。数据集构建过程中面临多重困难:首先,原始数据格式多样(如GLB、OBJ、压缩包),需通过trimesh工具进行几何提取与格式转换,并过滤退化网格;其次,数据源许可协议混杂,部分仅限研究使用,限制了数据集的商业应用范围;此外,网格质量参差不齐,存在非流形、自相交或离散组件等问题,且面片数量差异巨大(从4至2000万不等),对下游算法的鲁棒性提出了较高要求。
常用场景
经典使用场景
在三维几何处理与生成领域,MeshLex-Data-Source数据集为研究者提供了统一且大规模的几何网格基准。该数据集整合了来自ABO、ShapeNet、Objaverse和3D-FRONT四大知名来源的15.8万个纯几何GLB模型,剥离了材质与纹理信息,专注于顶点与面片结构。这一特性使其成为训练和评估三维网格生成、重建及分析模型的理想资源,尤其在需要纯净几何数据的自监督学习或生成对抗网络(GAN)研究中,能够有效支撑模型对复杂形状拓扑的理解与合成能力。
解决学术问题
该数据集主要解决了三维计算机视觉与图形学中数据分散与格式不统一的瓶颈问题。通过将多源异构网格数据标准化为几何单一的GLB格式,研究者可避免繁琐的数据预处理,直接专注于算法开发。它在学术上促进了三维形状补全、网格简化、非刚性配准等基础问题的研究,并为跨数据集泛化性评估提供了可靠基准。其大规模与多样性有助于探索数据驱动的三维表示学习,推动神经网络在几何建模领域的理论进展与应用边界拓展。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作,其中MeshLex研究项目本身利用该资源探索了网格词汇化与分块表示学习。基于其纯几何特性,后续工作如MeshLex-Patches进一步构建了预分割网格块数据集,支持局部形状分析。在生成模型领域,该数据集常被引用为训练三维扩散模型或变分自编码器(VAE)的基础数据,促进了如MeshGPT等文本到三维生成系统的开发。同时,其多源整合结构也激励了跨数据集迁移学习与零样本形状分类等前沿方向的探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作