GOT-10k|物体跟踪数据集|自然语言处理数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

物体跟踪

自然语言处理

下载链接：

https://opendatalab.org.cn/OpenDataLab/GOT-10k

下载链接

链接失效反馈

资源简介：

我们在这里介绍一个大型跟踪数据库，该数据库提供了前所未有的广泛覆盖范围内的常见运动物体，称为 GOT-10k。具体来说，GOT-10k 建立在 WordNet 结构的主干之上，它填充了超过 560 种运动对象和 87 种运动模式中的大多数，其幅度比最近的类似规模的对应物要宽。

提供机构：

OpenDataLab

创建时间：

2022-03-17

AI搜集汇总

数据集介绍

构建方式

GOT-10k数据集的构建基于广泛的视频序列，涵盖了多种复杂场景和对象类别。该数据集通过精心筛选和标注，确保了高度的多样性和挑战性。具体而言，构建过程中采用了多阶段的标注策略，包括初始帧的手动标注和后续帧的自动跟踪校正，以确保标注的准确性和一致性。此外，数据集还引入了多种变换和干扰因素，如光照变化、遮挡和运动模糊，以模拟真实世界中的复杂环境。

特点

GOT-10k数据集以其高度的多样性和复杂性著称，包含了超过10,000个视频序列，涵盖了560个不同的对象类别。该数据集不仅在数量上具有显著优势，还在质量上保证了高标准的标注精度。其特点还包括广泛的环境变化和动态场景，如城市街道、自然景观和室内环境，为研究者提供了丰富的实验数据。此外，数据集的标注信息详尽，包括边界框、类别标签和运动轨迹，为多种计算机视觉任务提供了坚实的基础。

使用方法

GOT-10k数据集适用于多种计算机视觉任务，特别是目标跟踪和识别。研究者可以通过下载数据集并使用提供的标注文件进行训练和测试。数据集的多样性和复杂性使其成为评估和改进跟踪算法的有力工具。使用时，建议结合深度学习框架，如TensorFlow或PyTorch，进行模型的训练和验证。此外，数据集还提供了基准测试结果和评估指标，帮助研究者快速评估其算法的性能。通过合理利用GOT-10k数据集，研究者可以推动目标跟踪领域的发展，提升算法的鲁棒性和准确性。

背景与挑战

背景概述

GOT-10k数据集，由中科院自动化研究所于2018年创建，是目标跟踪领域的重要资源。该数据集包含了超过10,000个视频片段，涵盖了560个不同类别的目标，旨在推动目标跟踪算法的发展。主要研究人员包括黄凯奇教授及其团队，他们的核心研究问题是如何在复杂和多样化的环境中实现高效且准确的目标跟踪。GOT-10k的发布极大地丰富了目标跟踪领域的数据资源，为研究人员提供了更为全面和多样化的测试平台，从而推动了该领域的技术进步。

当前挑战

GOT-10k数据集在构建和应用过程中面临多项挑战。首先，数据集的多样性和复杂性要求算法具备强大的泛化能力和鲁棒性，以应对不同场景和目标的变化。其次，数据集的规模庞大，处理和标注过程中需要高效的数据管理和技术支持，确保数据的准确性和一致性。此外，目标跟踪领域的快速发展也要求数据集不断更新和扩展，以适应新的研究需求和技术进步。这些挑战不仅推动了数据集本身的优化，也促进了相关算法的创新和发展。

发展历史

创建时间与更新

GOT-10k数据集由Huang等人于2018年创建，旨在推动目标跟踪领域的发展。该数据集自创建以来，未有官方更新记录，但其持续的影响力促使研究者不断探索其潜在应用。

重要里程碑

GOT-10k数据集的发布标志着目标跟踪领域的一个重要里程碑。它包含了超过10,000个视频序列，涵盖了广泛的场景和目标类别，极大地丰富了现有数据资源。其多样性和高质量的标注为算法评估提供了坚实的基础，推动了目标跟踪技术的显著进步。此外，GOT-10k还引入了新的评估指标，如AO（Average Overlap）和SR（Success Rate），进一步提升了评估的准确性和全面性。

当前发展情况

当前，GOT-10k数据集已成为目标跟踪研究中的标准基准之一，广泛应用于各类算法的研究与开发。其丰富的数据资源和严格的评估标准，不仅促进了学术界对目标跟踪技术的深入研究，也为工业界提供了实用的解决方案。随着深度学习技术的不断发展，GOT-10k数据集的应用范围也在不断扩展，从传统的视频监控到自动驾驶、增强现实等多个领域，展现出其强大的跨领域应用潜力。未来，GOT-10k有望继续引领目标跟踪技术的发展方向，推动该领域向更高精度、更广应用场景迈进。

发展历程

GOT-10k数据集首次发表，由Huang等人提出，旨在为视觉目标跟踪领域提供一个大规模、多样化的数据集。
2018年
GOT-10k数据集首次应用于目标跟踪算法评估，显著提升了算法在复杂场景下的性能表现。
2019年
GOT-10k数据集成为目标跟踪领域的重要基准之一，被广泛用于评估和比较不同跟踪算法的性能。
2020年

常用场景

经典使用场景

在计算机视觉领域，GOT-10k数据集以其丰富的多目标跟踪序列而著称。该数据集包含了超过10,000个视频片段，涵盖了多种复杂场景和目标类别。研究者常利用此数据集进行多目标跟踪算法的训练与评估，特别是在目标遮挡、尺度变化和快速运动等挑战性条件下，验证算法的鲁棒性和准确性。

解决学术问题

GOT-10k数据集解决了多目标跟踪领域中数据稀缺和多样性不足的问题。通过提供大规模、多样化的视频序列，该数据集显著推动了多目标跟踪算法的发展，特别是在处理复杂场景和动态变化方面。其丰富的标注信息和多样的场景设置，为研究者提供了宝贵的资源，促进了算法在实际应用中的性能提升。

衍生相关工作

基于GOT-10k数据集，研究者们开发了多种先进的跟踪算法，如SiamRPN++和DiMP等，这些算法在多个基准测试中表现优异。此外，该数据集还激发了一系列相关研究，包括目标检测、行为识别和视频理解等。这些衍生工作不仅丰富了计算机视觉的研究内容，也为实际应用提供了强有力的技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心收录

O*NET

O*NET（Occupational Information Network）是一个综合性的职业信息数据库，提供了关于各种职业的详细描述，包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。

www.onetonline.org 收录

HAM10000

HAM10000数据集是一个全面收集的皮肤镜图像集合，用于皮肤病变分类，广泛应用于医学影像和机器学习领域。该数据集包含多种皮肤病变，旨在推动皮肤病学研究，特别是皮肤癌的诊断。数据集由10,000张高分辨率的皮肤病变图像组成，来源多样，有助于训练稳健的机器学习模型，使其能够很好地泛化到未见过的数据。数据集的主要挑战是其显著的不平衡性。

github 收录

Crop Yield Prediction Dataset

Impact of Environmental Factors on Crop Yields Across Countries

kaggle 收录

中国逐日格点降水数据集V2（1960–2024，0.1°）

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据，并纳入11个降水相关变量，用于表征降水的相关性。数据集采用改进的反距离加权方法，并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集（包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS）表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证，发现该数据集显著提高了降水测量精度，降低了降水事件的高估，为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据，覆盖整个中国大陆（18°N–54°N，72°E–136°E）。该数据集涵盖1960–2024年，并将每年持续更新。日值数据以NetCDF格式提供，为了方便用户，我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心收录