five

SynPlay|计算机视觉数据集|人类行为分析数据集

收藏
arXiv2024-08-22 更新2024-08-23 收录
计算机视觉
人类行为分析
下载链接:
https://synplaydataset.github.io/
下载链接
链接失效反馈
资源简介:
SynPlay数据集由马里兰大学学院公园分校等机构创建,旨在模拟真实世界中人类外观的多样性。该数据集包含超过73,000张图像和650万个实例,通过结合真实人类动作和多视角摄像机捕捉,展现了丰富的动态和静态场景。数据集的创建过程中,采用了基于规则的动作设计方法,结合了六种传统韩国游戏的规则,以增加动作的自然性和多样性。SynPlay数据集主要应用于计算机视觉领域,特别是在人类检测和分割任务中,能够显著提高模型在数据稀缺情况下的性能。
提供机构:
马里兰大学学院公园分校,BlueHalo,DEVCOM陆军研究实验室
创建时间:
2024-08-22
原始信息汇总

Synthetic Playground Dataset (SynPlay)

概述

  • 标题: Synthetic Playground Dataset
  • 简称: SynPlay
  • 描述: 该数据集包含73,892张图像,超过650万个人类实例。数据集包含6种不同的游戏,每个游戏被压缩成一个tar.xz文件。

数据内容

  • 图像数量: 73,892
  • 人类实例数量: 超过650万
  • 游戏种类: 6种
  • 包含信息:
    • 人类实例的地面真实标注(边界框、像素级标签)
    • 所有元数据(相机位置、姿态等)

下载链接

视频

AI搜集汇总
数据集介绍
main_image_url
构建方式
SynPlay数据集的构建采用了游戏引擎和运动捕捉设备相结合的方式。首先,通过游戏引擎和其库提供的初级运动创建游戏,让虚拟玩家在遵循游戏规则的同时,能够进行更少约束和自然的运动。然后,使用运动捕捉设备捕捉真实人类的运动,并将其与初级运动相结合,以增强数据的真实性和多样性。为了从多个视角渲染游戏中的人类外观,使用了七个虚拟摄像头,包括地面和空中视角,捕捉丰富的空中-地面和动态-静态属性的场景。
特点
SynPlay数据集的特点在于其真实性和多样性。首先,通过使用运动捕捉设备捕捉真实人类的运动,使得数据集中的人类运动更加真实。其次,通过从多个视角捕捉场景,使得数据集中的人类外观更加多样化。此外,数据集中还包含了丰富的标注信息,包括2D/3D边界框、实例级分割掩码、深度图和人体关键点位置,方便用户进行各种计算机视觉任务的训练和评估。
使用方法
SynPlay数据集的使用方法如下:首先,下载并解压数据集。然后,根据需要选择合适的训练数据集和评估数据集。可以使用数据集中的标注信息进行模型训练和评估。此外,还可以使用数据集中的多个视角信息进行多视角应用,如重识别、空中-地面场景匹配等。在使用数据集时,需要注意保护数据隐私,避免泄露敏感信息。
背景与挑战
背景概述
SynPlay数据集的创建旨在解决现有合成数据集中人类外观多样性不足的问题。该数据集由马里兰大学帕克分校、BlueHalo和DEVCOM陆军研究实验室的研究人员共同创建,于2024年8月发布。SynPlay数据集通过使用游戏引擎和运动捕捉设备,实现了真实人类运动和姿态的捕捉,并通过多个摄像头视角捕捉人类实例,从而在人类外观多样性方面取得了前所未有的成果。该数据集的核心研究问题是如何在合成数据集中实现与真实世界相似的人类外观多样性,以及如何利用这种多样性来提升模型在人类检测和分割等任务上的准确性。SynPlay数据集的发布对相关领域产生了重要影响,为模型预训练提供了丰富的复杂人类外观和姿态属性数据集。
当前挑战
SynPlay数据集面临的挑战主要包括两个方面:一是如何解决人类外观识别任务中远距离识别的挑战,二是如何在构建过程中克服多样性不足的问题。在人类外观识别任务中,远距离识别比近距离识别更具挑战性,因为远距离识别需要考虑更多的影响因素,如光照、天气、视角等。SynPlay数据集通过使用多个摄像头视角捕捉人类实例,以及在不同的环境条件下进行数据采集,有效地解决了这一挑战。此外,现有的合成数据集在多样性方面往往存在不足,难以满足模型训练的需求。SynPlay数据集通过采用游戏引擎和运动捕捉设备,以及多个摄像头视角捕捉人类实例,实现了与真实世界相似的人类外观多样性,从而克服了这一挑战。
常用场景
经典使用场景
SynPlay数据集主要用于提升模型在人类检测和分割任务上的准确率,尤其是在数据稀缺的场景下。该数据集通过引入真实世界的人类运动和多个视角的相机设置,为模型提供了丰富的人类外观和姿态特征,从而增强了模型的泛化能力。
实际应用
SynPlay数据集在实际应用中,可以用于训练各种计算机视觉模型,如人类检测、分割、跟踪和姿态估计等。此外,SynPlay数据集还可以用于数据稀缺的场景,如少样本学习和跨域学习等。
衍生相关工作
SynPlay数据集的衍生工作主要集中在提升合成数据集的真实性和多样性方面。例如,有研究尝试通过引入更多的真实世界数据来提升合成数据集的真实性,或者通过引入更多的相机视角来提升合成数据集的多样性。此外,还有一些研究尝试将SynPlay数据集与其他数据集进行融合,以进一步提高模型的性能。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

World Drug Report

该数据集包含全球毒品市场的详细报告,涵盖了毒品的生产、贩运、消费趋势以及相关的健康和社会影响。报告提供了各地区和国家在毒品问题上的统计数据和分析。

www.unodc.org 收录

MIMIC-IV数据库

MIMIC全称是Medical Information Mart for Intensive Care, 是一个重症医学数据库。2003年,在NIH的资助下,来自贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)、麻省理工(MIT)、牛津大学和麻省总医院(MGH)的急诊科医生、重症科医生、计算机科学专家等共同建立的一个数据库。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Wafer Defect

该数据集包含了七个主要类别的晶圆缺陷,分别是:BLOCK ETCH、COATING BAD、PARTICLE、PIQ PARTICLE、PO CONTAMINATION、SCRATCH和SEZ BURNT。这些类别涵盖了晶圆在生产过程中可能出现的多种缺陷类型,每一种缺陷都有其独特的成因和表现形式。数据集不仅在类别数量上具有多样性,而且在样本的多样性和复杂性上也展现了其广泛的应用潜力。每个类别的样本均经过精心标注,确保了数据的准确性和可靠性。

github 收录

中国1km分辨率逐月平均气温数据集(1901-2024)

该数据为中国逐月平均温度数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。数据单位为0.1 ℃。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录