five

SynthesiaSet

收藏
Hugging Face2026-01-21 更新2026-01-22 收录
下载链接:
https://huggingface.co/datasets/gserifi/SynthesiaSet
下载链接
链接失效反馈
官方服务:
资源简介:
SynthesiaSet是一个合成的钢琴图像数据集,包含100,000张图像,每张图像都有2D和3D关键点注释(四个角点)。这些图像是通过Mitsuba 3渲染生成的。数据集的特征包括RGB图像(224x304)和关键点信息,关键点信息包含深度、2D关键点投影和3D关键点位置。数据集用于对象检测任务,许可证为MIT,大小类别在100K到1M之间。数据集由ETH Zürich的Mixed Reality课程项目创建。

SynthesiaSet is a synthetic piano image dataset consisting of 100,000 images, each annotated with 2D and 3D keypoints (four corner points). All images are rendered using Mitsuba 3. The dataset provides RGB images with a resolution of 224×304 and keypoint information, which includes depth values, 2D keypoint projections, and 3D keypoint coordinates. This dataset is designed for object detection tasks. It is released under the MIT License, with its size ranging between 100K and 1M. SynthesiaSet was developed as a course project for the Mixed Reality course at ETH Zürich.
创建时间:
2026-01-11
原始信息汇总

SynthesiaSet 数据集概述

数据集基本信息

  • 数据集名称:SynthesiaSet
  • 发布机构/作者:Matan Davidi, Cyril Moser, Gent Serifi, Nicola Studer, Ata Celen (ETH Zürich, Switzerland)
  • 许可证:MIT
  • 任务类别:目标检测
  • 数据规模:100K < n < 1M

数据内容与结构

  • 数据类型:合成钢琴图像数据集,包含2D与3D关键点标注。
  • 数据量:包含100,000个训练样本。
  • 图像格式:RGB图像,分辨率为224x304。
  • 标注信息:每个样本包含一个字典kpts,其结构如下:
    • keypoints3d:一个(4, 3)的列表,表示4个关键点的3D坐标(按顺时针方向,从左上角开始)。
    • keypoints2d:一个(4, 2)的列表,表示4个关键点的2D投影坐标。
    • depth:一个(4,)的列表,表示4个关键点到相机的距离。

技术细节

  • 渲染工具:使用Mitsuba 3渲染器生成。
  • 项目背景:为苏黎世联邦理工学院(ETH Zürich)的“混合现实”课程项目“AR-Musician”创建。

引用信息

如果此数据集对您的研究或应用有帮助,请引用: bibtex @software{ARMusician, title = {AR-Musician: Playing Instruments the Futuristic Way}, author = {Davidi, Matan and Moser, Cyril and Serifi, Gent and Studer, Nicola and Celen, Ata}, year = 2026 }

相关资源

  • 项目GitHub地址:https://github.com/MixedRealityETHZ/AR_Musician
  • Mitsuba 3渲染器引用: bibtex @software{jakob2022mitsuba3, title = {Mitsuba 3 renderer}, author = {Wenzel Jakob and Sébastien Speierer and Nicolas Roussel and Merlin Nimier-David and Delio Vicini and Tizian Zeltner and Baptiste Nicolet and Miguel Crespo and Vincent Leroy and Ziyi Zhang}, note = {https://mitsuba-renderer.org}, version = {3.0.1}, year = 2022, }
搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉与混合现实领域,高质量的合成数据集对于模型训练至关重要。SynthesiaSet的构建采用了基于物理的渲染技术,通过Mitsuba 3渲染引擎生成了十万张钢琴图像。每张图像均以224x304的分辨率呈现,并附带精确的关键点标注,包括四个角点的二维投影、三维空间坐标以及深度信息。这一过程确保了数据在几何与光照层面的高度真实性,为后续的视觉任务提供了可靠的合成数据源。
特点
该数据集的核心特征在于其全面且结构化的标注体系。每张图像不仅包含RGB信息,还通过字典形式封装了关键点的多维数据:二维关键点投影、三维空间位置以及各点相对于相机的深度距离。这种多模态标注方式特别适用于需要同时处理二维检测与三维姿态估计的任务,为钢琴键盘的视觉理解提供了丰富的监督信号。数据集的规模达到十万样本,属于中等规模,足以支持深度模型的训练与验证。
使用方法
在应用层面,SynthesiaSet主要服务于对象检测与关键点估计等计算机视觉任务。研究人员可直接加载数据集中的图像与对应标注,用于训练或评估模型在钢琴键盘识别与姿态恢复方面的性能。由于数据以标准格式组织,并托管于HuggingFace平台,用户能够便捷地通过相关API进行访问与集成。该数据集尤其适合探索合成数据在增强现实、音乐交互等混合现实场景中的迁移与应用潜力。
背景与挑战
背景概述
在混合现实与计算机视觉领域,高精度三维姿态估计是增强现实应用中的核心研究问题,尤其在乐器演奏等交互场景中,精准的关键点检测至关重要。SynthesiaSet数据集由苏黎世联邦理工学院的研究团队于2026年创建,作为其课程项目'AR-Musician'的重要组成部分,旨在通过合成数据推动钢琴关键点检测技术的发展。该数据集包含十万张钢琴图像,每张图像均标注了二维与三维关键点坐标及深度信息,为三维重建与姿态估计任务提供了丰富的训练资源,对混合现实中的乐器交互研究具有显著的推动作用。
当前挑战
该数据集致力于解决钢琴关键点检测在复杂环境下的鲁棒性挑战,包括光照变化、遮挡以及视角多样性等问题,这些因素直接影响增强现实应用中乐器跟踪的准确性。在构建过程中,研究团队面临合成数据与真实场景之间的域适应难题,需确保渲染图像在物理真实性上与真实数据保持一致;同时,大规模高质量标注的生成也带来了计算资源与时间成本的挑战,需借助Mitsuba 3渲染器等先进工具平衡效率与精度。
常用场景
经典使用场景
在计算机视觉与增强现实领域,SynthesiaSet数据集为钢琴键盘的精确检测与姿态估计提供了关键支持。该数据集通过合成渲染技术生成了十万张钢琴图像,并标注了二维与三维关键点坐标,常用于训练深度神经网络模型,以实现对钢琴键盘在复杂环境下的鲁棒识别与定位。其高保真的合成图像与详尽的标注信息,为模型在真实场景中的泛化能力奠定了坚实基础。
衍生相关工作
围绕SynthesiaSet数据集,已衍生出多项经典研究工作,尤其在合成数据驱动视觉模型领域。例如,基于该数据集的钢琴键盘检测与三维重建方法被广泛应用于AR音乐项目,如原作者的AR-Musician系统。后续研究进一步探索了域适应技术,以弥合合成与真实图像间的差距,并推动了关键点检测网络在乐器交互中的优化,这些工作显著丰富了计算机视觉在音乐科技领域的应用生态。
数据集最近研究
最新研究方向
在混合现实与计算机视觉领域,合成数据集的构建正成为推动算法泛化能力的关键途径。SynthesiaSet作为包含十万张钢琴图像及二维与三维关键点标注的数据集,其最新研究聚焦于增强现实音乐交互系统的精准姿态估计。该数据集通过Mitsuba 3渲染技术生成的高质量合成图像,为深度学习模型在复杂光照与视角变化下的鲁棒性训练提供了坚实基础。前沿探索集中于利用其丰富的三维标注信息,优化关键点检测网络在真实场景中的迁移性能,进而促进智能音乐教育、虚拟演奏等应用的突破性发展,对跨域感知技术的演进具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作