five

Hypersim|室内场景理解数据集|合成数据集数据集

收藏
arXiv2021-08-18 更新2024-06-21 收录
室内场景理解
合成数据集
下载链接:
http://github.com/apple/ml-hypersim
下载链接
链接失效反馈
资源简介:
Hypersim是由苹果公司创建的一个用于室内场景全面理解的高真实度合成数据集。该数据集包含77,400张图像,涵盖461个室内场景,每张图像都附有详细的逐像素标签和相应的地面真实几何信息。数据集完全依赖公开可用的3D资产,包括每个场景的完整场景几何、材质信息和光照信息。此外,每张图像都包含密集的逐像素语义实例分割和完整的相机信息,以及将每张图像分解为漫反射反射、漫反射照明和一个捕捉视依赖光照效果的非漫反射残差项。Hypersim数据集适用于需要直接3D监督的几何学习问题、需要联合处理多种输入和输出模式的多任务学习问题,以及逆渲染问题。数据集的创建过程涉及从在线市场下载的场景集合,通过一个新颖的计算管道生成带有地面真实标签和相应几何的图像集合。通过分析场景、对象和像素级别的数据,以及在金钱、计算时间和标注努力方面的成本,研究发现从头开始生成整个数据集的成本大约是训练一个流行的开源自然语言处理模型成本的一半。此外,数据集在两个真实世界的场景理解任务——语义分割和3D形状预测——上进行了评估,发现预训练在Hypersim数据集上显著提高了两个任务的性能,并在最具挑战性的Pix3D测试集上达到了最先进水平。
提供机构:
苹果公司
创建时间:
2020-11-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
Hypersim数据集的构建基于专业艺术家创建的大量合成场景,通过生成77,400张图像和461个室内场景的详细像素级标签和相应的几何信息来实现。该数据集的构建过程包括三个主要步骤:首先,使用一种新颖的视图采样启发式方法生成每个场景的相机视图,该方法不需要场景进行语义标记;其次,利用基于公共云计算服务的云渲染系统生成图像;最后,通过自建的交互式网格标注工具获取语义分割信息。
使用方法
Hypersim数据集适用于需要直接3D监督的几何学习问题、需要联合推理多输入和输出模态的多任务学习问题,以及逆渲染问题。研究人员可以通过预训练模型在数据集上进行训练,然后将其应用于实际场景理解任务,如语义分割和3D形状预测。数据集的全部渲染图像数据以及用于生成数据集和执行实验的代码均在线公开,便于复现和进一步研究。
背景与挑战
背景概述
Hypersim数据集由Apple公司的研究团队于2020年引入,旨在解决室内场景理解任务中难以获取真实图像的逐像素地面真值标签的问题。该数据集基于专业艺术家创建的大量合成场景,生成了77,400张图像,涵盖461个室内场景,并提供了详细的逐像素标签和相应的几何真值。Hypersim数据集的独特之处在于其完全依赖公开可用的3D资产,包括完整的场景几何、材质信息和光照信息,以及密集的逐像素语义实例分割和完整的相机信息。此外,每张图像都被分解为漫反射反射率、漫反射光照和一个捕捉视图依赖光照效果的非漫反射残差项。这些特性使得Hypersim数据集在需要直接3D监督的几何学习问题、多任务学习问题和逆渲染问题中具有广泛的应用前景。
当前挑战
Hypersim数据集在构建过程中面临多项挑战。首先,尽管合成数据在计算机视觉中具有重要作用,但现有合成数据集通常依赖于非公开的3D资产,限制了其在需要直接3D监督的几何学习问题中的应用。其次,许多合成数据集缺乏语义分割信息,或者分割粒度较低,无法提供语义上有意义的物体分割。此外,大多数数据集未将图像分解为解耦的光照和阴影成分,不适合逆渲染问题。Hypersim通过引入公开可用的3D资产、完整的场景几何和材质信息、密集的逐像素语义实例分割以及图像的解耦表示,成功解决了这些挑战。然而,如何确保合成数据与真实数据之间的域适应性,以及如何在有限的计算资源下高效生成大规模、高质量的合成数据,仍是未来研究的重要方向。
常用场景
经典使用场景
Hypersim数据集在室内场景理解任务中展现了其经典应用,特别是在语义分割和3D形状预测方面。通过提供详细的逐像素标签和相应的几何信息,该数据集支持了多种计算机视觉任务,如场景重建、物体检测和光照估计。其高保真度的图像和完整的场景几何信息使得研究人员能够开发和验证复杂的算法,从而推动了室内场景理解的边界。
解决学术问题
Hypersim数据集解决了在真实图像中难以或无法获取逐像素地面真值标签的问题,这对于许多基础场景理解任务至关重要。通过提供一个包含77,400张图像和461个室内场景的合成数据集,Hypersim为研究人员提供了一个可控的环境,用于测试和改进他们的算法。这不仅降低了数据收集的成本和复杂性,还提高了算法的鲁棒性和准确性,特别是在光照和材质变化较大的室内环境中。
实际应用
在实际应用中,Hypersim数据集可以用于训练和验证自动驾驶汽车、机器人导航和增强现实系统中的视觉算法。例如,自动驾驶汽车需要精确理解其周围环境,包括识别和定位物体、理解光照条件和材质属性。通过使用Hypersim数据集,开发人员可以在受控的合成环境中测试和优化这些算法,然后再将其部署到真实世界中,从而提高系统的安全性和可靠性。
数据集最近研究
最新研究方向
在计算机视觉领域,Hypersim数据集的最新研究方向主要集中在提升室内场景理解的全面性和真实性。研究者们致力于通过利用专业艺术家创建的合成场景,生成具有详细像素级标签和相应几何信息的图像,以解决从真实图像中难以获取像素级地面真实标签的问题。Hypersim数据集不仅依赖于公开的3D资产,还包含了完整的场景几何、材质和光照信息,以及每张图像的密集像素级语义实例分割和完整的相机信息。此外,该数据集将每张图像分解为漫反射反射率、漫反射光照和非漫反射残差项,以捕捉依赖于视角的光照效果。这些特性使得Hypersim数据集在需要直接3D监督的几何学习问题、多任务学习问题以及逆渲染问题中具有广泛的应用前景。
相关研究论文
  • 1
    Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene Understanding苹果公司 · 2021年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。

huggingface 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录