MeshLex-Data-Source
收藏MeshLex-Data-Source 数据集概述
数据集基本信息
- 名称: MeshLex-Data-Source
- 规模: 100K<n<1M
- 总文件数: 158,588 个几何网格文件
- 总大小: 281.5 GB
- 格式: 几何专用 GLB 文件
- 任务类别: 文本到3D、图像到3D
- 标签: 3D、网格、glb、几何、objaverse、shapenet、abo、3d-front、meshlex
- 许可证: 混合来源
数据构成与统计
数据集整合了来自四个主要3D数据源的几何网格。
各来源数据统计
| 数据源 | 文件数量 | 数据大小 | 类别数量 | 面数中位数 | 顶点数中位数 |
|---|---|---|---|---|---|
| ABO | 7,952 | 6.4 GB | — | 18,239 | 10,990 |
| ShapeNet | 52,472 | 35.9 GB | 55 | 7,037 | 6,586 |
| Objaverse | 45,975 | 155.1 GB | 1,156 | 14,956 | 11,775 |
| 3D-Front | 52,189 | 84.1 GB | 19,121 | 44,347 | 54,227 |
| 总计 | 158,588 | 281.5 GB | 20,332 | 18,584 | 17,288 |
面数分布
| 数据源 | 最小值 | 中位数 | 平均值 | 最大值 |
|---|---|---|---|---|
| ABO | 20 | 18,239 | 42,448 | 11,540,224 |
| ShapeNet | 16 | 7,037 | 30,046 | 4,443,092 |
| Objaverse | 4 | 14,956 | 153,404 | 20,818,039 |
| 3D-Front | 4 | 44,347 | 59,642 | 3,361,058 |
顶点数分布
| 数据源 | 最小值 | 中位数 | 平均值 | 最大值 |
|---|---|---|---|---|
| ABO | 56 | 10,990 | 24,386 | 5,870,562 |
| ShapeNet | 20 | 6,586 | 26,913 | 6,163,387 |
| Objaverse | 8 | 11,775 | 127,680 | 15,398,448 |
| 3D-Front | 6 | 54,227 | 74,556 | 5,206,898 |
主要类别分布(跨所有来源前10)
| 类别 | 数据源 | 数量 |
|---|---|---|
| table | ShapeNet | 8,436 |
| chair | ShapeNet | 6,778 |
| Cabinet | 3D-Front | 5,041 |
| airplane | ShapeNet | 4,045 |
| car | ShapeNet | 3,514 |
| sofa | ShapeNet | 3,173 |
| Sofa | 3D-Front | 1,928 |
| Lighting | 3D-Front | 1,795 |
| Others | 3D-Front | 1,726 |
| Chair | 3D-Front | 1,357 |
数据来源与处理
Amazon Berkeley Objects (ABO)
- 来源: https://amazon-berkeley-objects.s3.amazonaws.com/index.html
- 处理: 下载GLB → 通过trimesh提取几何 → 过滤退化网格(面数<4的移除)
- 许可证: CC-BY 4.0 (https://creativecommons.org/licenses/by/4.0/)
- 统计: 7,952个网格(1个转换失败)。面数范围从20到1,150万(中位数18K)。
ShapeNetCore v2
- 来源: https://shapenet.org/
- 处理: OBJ模型 → 使用
force="mesh"加载到trimesh → 导出为几何专用GLB - 许可证: ShapeNet使用条款 (https://shapenet.org/terms) — 仅限研究和教育用途
- 统计: 52,472个网格,涵盖55个类别。主要类别:桌子 (8,436)、椅子 (6,778)、飞机 (4,045)、汽车 (3,514)、沙发 (3,173)。
Objaverse-LVIS
- 来源: https://objaverse.allenai.org/ — 大规模众包3D资产集合,过滤至LVIS子集(具有LVIS类别标注的对象)
- 处理: 通过
objaversePython包下载 → GLB转换 → 几何提取 → 退化网格过滤 - 许可证: 各个对象有其自己的许可证;大多数为CC-BY 4.0 (https://creativecommons.org/licenses/by/4.0/)。详情见Objaverse许可证页面 (https://objaverse.allenai.org/objaverse-1.0)。
- 统计: 45,975个网格,涵盖1,156个LVIS类别。主要类别:椅子 (453)、海贝壳 (370)、天线 (174)、盾牌 (146)、雪人 (145)。
3D-FRONT
- 来源: https://tianchi.aliyun.com/specials/promotion/alibaba-3d-scene-dataset — 大规模室内场景数据集
- 处理: 连接tar.gz部分 → 通过
tarfile流式提取 → 基于UUID的家具模型去重 → 几何专用GLB转换 - 许可证: 3D-FRONT使用条款 (https://tianchi.aliyun.com/specials/promotion/alibaba-3d-scene-dataset) — 仅限学术和研究用途
- 统计: 从场景数据中去重后得到52,189个独特的家具模型,涵盖19,121个模型类别。主要类别:Cabinet (5,041)、Sofa (1,928)、Lighting (1,795)、Chair (1,357)。
数据处理流程
数据集由MeshLex v5.1流程生成:
- 下载 每个来源的原始3D资产(GLB、OBJ或tar.gz)
- 加载 通过trimesh并使用
force="mesh"将场景图折叠为单个网格 - 剥离 材质、纹理、法线和UV坐标 — 仅保留顶点和面
- 过滤 退化网格(面数 < 4)
- 去重 (仅3D-Front:跨场景基于UUID的模型去重)
- 导出 为几何专用GLB
- 上传 分片批次至HuggingFace(每次提交500个文件)
目录结构
文件按来源组织,并分片存储以符合HuggingFace的目录文件数量限制。
data-abo/ 00/ # 分片0: 索引 0–9999 00000-of-07952.glb 00001-of-07952.glb ... data-shapenet/ 00/ # 分片0: 索引 0–9999 01/ # 分片1: 索引 10000–19999 ... 05/ # 分片5: 索引 50000–52471 data-objaverse/ 00/ ... 04/ data-3d-front/ 00/ ... 05/
- 命名规则:
{index:05d}-of-{total:05d}.glb - 分片: 文件被分割成最多包含10,000个文件的子目录(
分片 = 索引 // 10000)。 - 本地扁平布局: 下载后,原始扁平文件名遵循模式
{source}-{index:05d}-of-{total:05d}.glb(例如,shapenet-00123-of-52472.glb)。
使用方式
快速开始
使用huggingface_hub下载单个网格并用trimesh加载。
按来源浏览
使用HfApi列出特定来源目录下的文件。
批量下载
使用snapshot_download下载整个来源的数据。
加载与检查
使用trimesh加载网格并检查其顶点和面数。
许可证信息
数据集聚合了来自多个来源的网格,每个来源有其自己的许可证:
| 来源 | 许可证 | 商业用途 |
|---|---|---|
| ABO | CC-BY 4.0 | 允许 |
| ShapeNet | ShapeNet使用条款 | 不允许(仅限研究) |
| Objaverse | 按对象(大多数为CC-BY 4.0) | 视情况而定 |
| 3D-Front | 3D-FRONT使用条款 | 不允许(仅限研究) |
重要提示: 由于ShapeNet和3D-Front的限制,整个数据集应被视为仅限研究和教育用途。如需商业用途数据,请筛选出具有兼容许可证的ABO和Objaverse子集。
处理流程代码基于Apache 2.0许可证 (https://github.com/Pthahnix/MeshLex-Research/blob/main/LICENSE)。
局限性
- 仅几何信息: 所有材质、纹理和颜色信息已被移除。这些网格在不重新纹理化的情况下不适合渲染。
- 未应用简化: 网格保留其原始多边形数量,差异很大(4到2000万面)。下游流程应应用自己的简化策略。
- 质量不一: 来源数据集具有不同水平的网格质量。一些网格可能非流形、有自相交或包含断开连接的组件。
- 类别覆盖: 在此版本中,ABO网格缺少类别标签(标记为“未知”)。
引用
如果研究中使用此数据集,请引用提供的BibTeX条目,并同时引用原始数据集。




