five

MVTrack|多视角跟踪数据集|计算机视觉数据集

收藏
arXiv2025-02-27 更新2025-03-04 收录
多视角跟踪
计算机视觉
下载链接:
https://mii-laboratory.github.io/MITracker/
下载链接
链接失效反馈
资源简介:
MVTrack数据集是由上海科技大学生物医学工程学院和国家重点实验室构建的多视角跟踪数据集,包含234K个高质量标注帧,涵盖27个不同对象类别,跨越9个具有挑战性的跟踪属性,如遮挡和形变。该数据集由3-4个校准相机捕获,提供精确的边界框(BBox)注释,并包含训练、验证和测试集,是首个为训练类无关多视角跟踪方法提供的全面基准数据集,也为评估这些方法提供了丰富的手段。
提供机构:
上海科技大学 生物医学工程学院 & 国家重点实验室
创建时间:
2025-02-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
MVTrack数据集的构建采用了多摄像机系统,使用3至4台时间同步的Azure Kinect摄像机进行数据采集。这些摄像机以1920×1080的分辨率和30帧每秒的速率记录视频序列,并确保多视角的重叠,以便于摄像机之间的信息融合。摄像机的外部参数通过校准和微调获得,并将所有视角对齐到一个统一的坐标系中。数据标注方面,MVTrack数据集提供了帧级别的标注,包括2D对象边界框和地面坐标标注,所有标注均为半自动生成,并通过人工调整和双重检查确保准确性。该数据集特别关注9个常见的跟踪挑战,如背景杂波、运动模糊、部分遮挡、完全遮挡、视线外、变形、低分辨率、宽高比变化和尺度变化,以便更好地评估跟踪器的性能。
使用方法
使用MVTrack数据集时,首先需要将2D特征图从多个视角投影到3D特征空间,并在鸟瞰图(BEV)指导下进行特征融合。然后,将融合后的3D特征嵌入到3D感知token中,并使用空间增强注意力机制对来自特定视角的未细化特征进行细化,从而产生稳定的跟踪结果。在多视角场景中,MITracker通过后处理策略来获取多视角结果,将单视角预测投影到3D世界坐标系中,并识别具有最大重叠区域的区域作为目标位置,然后将其重新投影到每个视角的2D图像平面上以生成融合的多视角跟踪结果。
背景与挑战
背景概述
在视觉对象追踪领域,多视角对象追踪(MVOT)作为一种新兴技术,为解决传统单视角追踪中的遮挡和目标丢失等问题提供了新的思路。为了推动MVOT技术的发展,研究人员亟需一个全面的多视角数据集和有效的跨视角融合方法。鉴于此,来自上海科技大学和上海交通大学的研究团队共同构建了MVTrack数据集,该数据集包含234K高质量标注帧,涵盖27种不同对象,并跨越多种场景。同时,他们还提出了一种名为Multi-View Integration Tracker(MITracker)的MVOT新方法,该方法能够高效地融合多视角对象特征并提供稳定的追踪结果。MITracker在MVTrack和GMTD数据集上均取得了最先进的性能,为MVOT技术的研究和应用奠定了基础。
当前挑战
尽管MVOT技术在处理遮挡和目标丢失等问题上具有显著优势,但仍面临着一些挑战。首先,现有的多视角数据集主要集中在特定的对象类别上,如人类或鸟类,限制了其在通用对象追踪上的应用。其次,当前MVOT方法主要关注于使用检测和重识别方法追踪特定类别的对象,不适用于无类别追踪。此外,由于缺乏全面的多视角数据,研究人员在训练模型时往往依赖于单视角数据集,这严重限制了模型理解不同视角间复杂空间关系和外观变化的能力。为了应对这些挑战,MVTrack数据集不仅提供了训练和评估集,还涵盖了27个日常对象类别和9种具有挑战性的追踪属性,如遮挡和变形。MITracker方法则通过构建鸟瞰图引导的3D特征体积和利用空间增强注意力机制,实现了对不同视角下任意对象的稳定追踪。
常用场景
经典使用场景
MVTrack数据集主要用于多视角视觉对象跟踪(MVOT)领域的研究与开发。该数据集为研究者提供了丰富的多视角视频序列,并标注了精确的边界框,涵盖了27个不同的对象类别,以及9种具有挑战性的跟踪属性,如遮挡和变形。通过使用MVTrack,研究者可以训练和评估多视角跟踪算法,从而提高算法在复杂环境下的鲁棒性和准确性。
解决学术问题
MVTrack数据集解决了多视角跟踪领域缺乏大规模、多样化数据集的问题。现有的多视角数据集往往局限于特定的对象类别,如行人或鸟类,限制了算法的通用性。MVTrack提供了更广泛的对象类别和场景,使算法能够更好地理解和处理不同视角下的空间关系和外观变化。此外,MVTrack数据集还包含了丰富的跟踪属性标注,有助于评估算法在不同挑战性场景下的性能。
实际应用
MVTrack数据集在实际应用中具有广泛的应用前景。多视角跟踪技术在增强现实、自动驾驶、视频监控等领域具有重要应用。通过使用MVTrack训练的多视角跟踪算法,可以实现对动态环境中各种对象的持续监测和轨迹预测。例如,在自动驾驶中,多视角跟踪算法可以帮助车辆识别和跟踪周围的其他车辆和行人,提高行驶安全性。在视频监控中,多视角跟踪算法可以帮助监控人员实时跟踪和识别可疑目标,提高监控效率。
数据集最近研究
最新研究方向
MVTrack数据集和MITracker算法在多视角目标跟踪领域的前沿研究方向。该研究通过构建包含234K高质量标注帧的MVTrack数据集,涵盖了27种不同的物体和9种具有挑战性的跟踪属性,如遮挡和变形。此外,研究提出了一个新的多视角跟踪方法MITracker,该方法能够有效地整合多视角目标特征,并提供稳定的跟踪结果。MITracker通过将2D图像特征转换为3D特征体积并压缩到鸟瞰图(BEV)平面,实现了视角间信息融合,并利用融合的3D特征体积中的几何信息来细化每个视角的跟踪结果。实验结果表明,MITracker在MVTrack和GMTD数据集上取得了最先进的性能。
相关研究论文
  • 1
    MITracker: Multi-View Integration for Visual Object Tracking上海科技大学 生物医学工程学院 & 国家重点实验室 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

Coffee_Shop_Sales

该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录