sharp-ply-share
收藏Hugging Face2026-02-09 更新2026-02-10 收录
下载链接:
https://huggingface.co/datasets/sharp-ply-share/sharp-ply-share
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自Unsplash的照片及其相关元数据,存储为JSONL格式。每条记录包含图像的URL、Unsplash照片ID、gsplat.org的共享和订单ID、模型文件URL、标签、主题、描述、创建时间戳和作者用户名等字段。实际资产(JPG/PLY/SPZ文件)存储在特定目录下。数据集适用于图像处理和3D模型生成等任务,遵循Unsplash许可证,允许大多数用途,但不允许直接销售图像或复制类似服务。数据集还包括用于协调多客户端运行的管道配置和去重机制。
创建时间:
2026-02-02
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: sharp-ply-share
- 托管平台: Hugging Face
- 许可证: other(具体为Unsplash License)
- 数据文件配置:
- 默认配置读取
data/train.jsonl文件。 - 实际资产文件(JPG / PLY / SPZ)存储在
unsplash/<image_id>/目录下。
- 默认配置读取
数据内容与结构
- 核心数据文件:
data/train.jsonl,为JSONL格式。 - 数据字段说明:
字段名 类型 描述 imagestring用于数据集查看器预览的JPG图片完整HF解析URL。 image_idstringUnsplash照片ID,也用作资产目录名。 gsplat_share_idstringgsplat.org上的分享ID(可能为空)。 gsplat_order_idstringgsplat.org上的订单ID(可能为空)。 gsplat_model_file_urlstringgsplat.org模型文件令牌(已标准化),例如 1770129991964_T8LMLFAy(可能为空)。tagsstring空格分隔的标签(源自Unsplash标签)。 topicsstring空格分隔的主题(通常为空)。 tags_textstring与 tags相同(为向后兼容/全文搜索保留)。topics_textstring与 topics相同。alt_descriptionstringUnsplash的 alt_description(若缺失则为空字符串)。descriptionstringUnsplash的 description(若缺失则为空字符串)。created_atstringUnsplash的 created_at时间戳(ISO8601格式)。user_usernamestringUnsplash作者用户名。
资产文件与访问
- 资产文件类型: 每个
image_id对应目录下包含:<image_id>.jpg<image_id>.ply<image_id>.spz
- URL重构:
- Unsplash照片页面:
https://unsplash.com/photos/<image_id> - HF数据集解析URL:
https://huggingface.co/datasets/eatmorefruit/sharp-ply-share/resolve/main/unsplash/<image_id>/<image_id>.<ext> - gsplat查看器URL(若
gsplat_share_id存在):https://gsplat.org/viewer/<gsplat_share_id> - 原始gsplat分享文件路径:
/share/file/<gsplat_model_file_url>.ply
- Unsplash照片页面:
数据来源与生成
- 图像来源: 所有图像来自Unsplash。
- PLY文件生成: 使用ml-sharp(https://github.com/apple/ml-sharp)从对应的Unsplash照片页面生成。
- 生成原则: 一张图像对应一个PLY文件,质量不高,仅供娱乐。
许可证信息
- 主要许可证: Unsplash License(非CC0)。
- 许可摘要: 允许对Unsplash图像进行几乎任何用途(包括商业用途),但禁止:
- 未经重大修改出售图像。
- 汇编Unsplash图像以复制类似或竞争服务。
相关链接
- GitHub仓库(管道代码): https://github.com/nameearly/sharp-ply-share
- Hugging Face数据集(另一个版本): https://huggingface.co/datasets/eatmorefruit/sharp-ply-share
搜集汇总
数据集介绍

构建方式
在计算机视觉与三维重建领域,sharp-ply-share数据集通过系统化流程整合了Unsplash平台的高质量图像资源。该数据集构建过程采用分布式协作机制,利用候选图像筛选与范围锁定策略,确保数据采集的高效性与一致性。每条数据记录均包含图像标识符、三维点云文件及相关元数据,通过JSONL格式进行结构化存储,便于后续处理与分析。
特点
该数据集的核心特征在于其多模态数据融合能力,将二维图像与对应的三维点云模型进行关联。每个样本不仅提供原始图像文件,还包含由ml-sharp算法生成的PLY格式点云数据,部分样本还附有gsplat.org平台的共享链接。数据集采用稳定的字段类型设计,确保数据结构的可靠性,同时保留了图像标签、描述文本及时间戳等丰富元信息,为跨模态学习任务提供了坚实基础。
使用方法
研究人员可通过解析train.jsonl文件获取数据集元数据,进而访问存储于指定目录下的图像与点云文件。数据加载过程支持直接URL重构,便于批量获取原始资源。对于三维可视化需求,可利用gsplat_share_id字段直接访问在线查看器。该数据集适用于计算机视觉、三维重建及跨模态表示学习等研究方向,使用时需遵循Unsplash许可协议的相关商业限制条款。
背景与挑战
背景概述
在三维视觉与计算机图形学领域,高质量三维场景重建与表示一直是核心研究议题。sharp-ply-share数据集由eatmorefruit团队于近期构建,其核心目标在于整合Unsplash平台的大规模二维图像资源,并借助苹果公司开源的ml-sharp工具链,自动化生成对应的点云(PLY)与高斯溅射(SPZ)格式的三维表示。该数据集通过关联图像标识符、元数据及三维模型文件,旨在为三维重建、神经渲染及多模态学习等前沿方向提供丰富的实验数据,推动从二维视觉到三维几何理解的跨模态研究进程。
当前挑战
该数据集致力于解决从单张图像生成三维几何表示的领域挑战,其核心问题在于如何从缺乏深度信息的二维照片中,高效且鲁棒地推断出合理的三维结构,这涉及几何先验建模、遮挡处理及细节恢复等难点。在构建过程中,数据集面临多重技术挑战:首先,大规模图像处理与三维重建流程需协调分布式计算与存储,确保数据一致性与完整性;其次,元数据整合与多源格式(如JPG、PLY、SPZ)的同步管理要求精细的管道设计;此外,Unsplash许可协议对商业使用的限制,以及高斯溅射模型生成的质量控制,均增加了数据集的构建复杂度。
常用场景
经典使用场景
在计算机视觉与三维重建领域,sharp-ply-share数据集为研究者提供了一个独特的资源,它通过将Unsplash平台的高质量二维图像与对应的三维点云(PLY格式)及高斯溅射(SPZ格式)数据相结合,构建了一个跨模态的视觉数据集。该数据集最经典的使用场景在于支持基于单张图像的3D场景重建与生成任务,研究人员可以利用这些配对数据训练深度学习模型,实现从二维图像到三维结构的端到端学习,从而推动视觉内容理解与合成的边界。
解决学术问题
该数据集有效解决了视觉计算中若干关键学术问题,尤其是单视图三维重建的挑战,即如何从单一二维图像中恢复出准确且稠密的三维几何信息。通过提供大规模、多样化的图像-点云对,它降低了数据收集与标注的复杂度,为模型训练提供了可靠基准。其意义在于促进了生成式人工智能与三维视觉的交叉研究,为探索神经渲染、场景表示学习等前沿方向奠定了数据基础,对推动沉浸式媒体、虚拟现实等技术的发展产生了深远影响。
衍生相关工作
围绕sharp-ply-share数据集,已衍生出一系列经典研究工作。例如,基于其图像-点云配对数据,研究者开发了改进的神经辐射场(NeRF)变体,以提升三维重建的精度与效率。同时,该数据集激发了高斯溅射技术在动态场景建模中的应用探索,相关成果发表在顶级计算机视觉会议上。此外,结合生成对抗网络(GAN)的跨模态生成模型也利用该数据集进行训练,实现了从文本或图像到三维点云的创造性合成,推动了生成式3D内容的发展。
以上内容由遇见数据集搜集并总结生成



