molmo2-single-object-track

Name: molmo2-single-object-track
Creator: Allen Institute for AI
Published: 2026-03-03 14:49:20
License: 暂无描述

Hugging Face2026-03-03 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/allenai/molmo2-single-object-track

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个单目标跟踪数据集，输入为单个点。数据集通过将原始数据集中的边界框标注转换为点轨迹而生成。包含多个配置，每个配置对应不同的源数据集，所有配置共享相同的任务（`single_point_track`）和模式。配置包括`all`（默认，所有源数据集合并）、`lvosv1`、`lvosv2`、`lasot`、`uwcot`、`webuot`、`latot`、`tnl2k`、`tnnlt`、`webuav`、`got10k`、`vasttrack`和`trackingnet`。数据集采用Apache 2.0许可，适用于视频分类和物体检测任务，特别标注了视频目标跟踪和视频分割的应用场景。

提供机构：

Allen Institute for AI

创建时间：

2026-02-25

原始信息汇总

数据集概述

基本信息

数据集名称: Single Object Tracking Dataset with Point as Input
数据集地址: https://huggingface.co/datasets/allenai/molmo2-single-object-track
许可证: apache-2.0
任务类别: 视频分类、目标检测
标签: 视频目标跟踪、视频分割

数据集描述

该数据集为单目标跟踪提供视频目标跟踪标注，其输入为单个点。该数据集源自原始数据集，通过将边界框标注转换为点轨迹而得到。

配置与数据划分

所有配置共享相同的任务（single_point_track）和模式。

配置名称	描述	数据划分
`all` (默认)	所有源数据集的组合	train
`lvosv1`	lvosv1 单点跟踪	train
`lvosv2`	lvosv2 单点跟踪	train
`lasot`	lasot 单点跟踪	train
`uwcot`	uwcot 单点跟踪	train
`webuot`	webuot 单点跟踪	train
`latot`	latot 单点跟踪	train
`tnl2k`	tnl2k 单点跟踪	train
`tnnlt`	tnnlt 单点跟踪	train
`webuav`	webuav 单点跟踪	train
`got10k`	got10k 单点跟踪	train
`vasttrack`	vasttrack 单点跟踪	train
`trackingnet`	trackingnet 单点跟踪	train

数据文件结构

每个配置对应的数据文件路径如下：

all: */train-*
lvosv1: lvosv1/train-*
lvosv2: lvosv2/train-*
lasot: lasot/train-*
uwcot: uwcot/train-*
webuot: webuot/train-*
latot: latot/train-*
tnl2k: tnl2k/train-*
tnnlt: tnnlt/train-*
webuav: webuav/train-*
got10k: got10k/train-*
vasttrack: vasttrack/train-*
trackingnet: trackingnet/train-*

使用示例

python from datasets import load_dataset

加载所有数据集（默认）

ds = load_dataset("allenai/molmo2-single-object-track", split="train")

加载特定的源数据集

ds = load_dataset("allenai/molmo2-single-object-track", "lvosv1", split="train")

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，单目标跟踪任务常依赖边界框标注，而本数据集创新性地将多种经典跟踪数据集的边界框注释转化为点轨迹。通过整合LVOSv1、LVOSv2、LaSOT、UWCOT、WebUOT、LATOT、TNL2K、TNNLT、WebUAV、GOT-10K、VastTrack及TrackingNet等十余个权威来源，构建了一个统一的单点输入跟踪数据集。这一转化过程保留了原始视频序列的空间与时间连续性，同时简化了输入形式，为模型训练提供了高效且标准化的数据基础。

使用方法

使用该数据集时，可通过Hugging Face的datasets库便捷加载，默认配置整合所有源数据集，用户亦可选择特定子集以适配不同研究需求。加载后，数据以标准化的点轨迹形式呈现，可直接用于训练或评估单目标跟踪模型。数据集适用于视频分类与目标检测等任务范畴，为开发轻量化、高效率的跟踪算法提供了坚实的数据支撑，同时促进了多数据集融合学习框架的探索。

背景与挑战

背景概述

单目标跟踪作为计算机视觉领域的一项基础任务，其核心在于通过视频序列持续定位特定目标。Molmo2-single-object-track数据集由AllenAI等研究机构构建，旨在应对传统边界框标注在复杂场景下的局限性。该数据集整合了LVOS、LaSOT、GOT-10K等多个知名跟踪数据集，将原有边界框注释统一转化为点轨迹形式，为基于点输入的单目标跟踪模型提供了标准化训练资源。这一创新不仅推动了跟踪方法向轻量化与高效化发展，也为跨数据集评估与模型泛化能力研究奠定了重要基础。

当前挑战

在单目标跟踪领域，模型常面临目标遮挡、快速运动及外观变化等动态挑战，点输入形式虽简化了标注，却对跟踪精度提出了更高要求。数据构建过程中，需将多样化的原始边界框注释转化为一致的点轨迹，涉及复杂的坐标映射与质量校验，以确保标注的时空一致性。此外，整合多源数据集时，需解决标注标准、视频分辨率及场景分布的差异，这对数据清洗与归一化流程构成了显著挑战。

常用场景

经典使用场景

在计算机视觉领域，单目标跟踪任务旨在持续定位视频序列中的特定对象。Molmo2-single-object-track数据集通过将传统边界框标注转换为点轨迹，为研究者提供了以单点输入为核心的跟踪基准。该数据集整合了LVOS、LaSOT、GOT-10K等多个经典跟踪数据源，使得模型能够在统一框架下学习从稀疏点信号中推断目标运动与外观变化，广泛应用于基于点的跟踪算法训练与评估。

解决学术问题

该数据集主要应对单目标跟踪中标注成本高与模型泛化能力不足的学术挑战。通过点标注形式，它降低了标注复杂度，同时促使模型从极简输入中学习鲁棒的特征表示，解决了传统边界框跟踪对标注依赖性强的问题。其多源数据融合的结构有助于探索跨域跟踪与少样本学习，推动了跟踪算法在标注效率与泛化性能方面的理论进展。

实际应用

在实际场景中，点输入跟踪技术可应用于视频监控、自动驾驶与增强现实系统。例如，在监控视频中，用户仅需点击关注对象即可启动持续跟踪，大幅提升了交互效率。自动驾驶领域可通过点跟踪实时追踪行人或车辆，增强环境感知能力。该数据集为这些应用提供了训练基础，促进了轻量级、高实时性跟踪模型的落地。

数据集最近研究