five

TPC-268

收藏
Hugging Face2026-04-09 更新2026-04-10 收录
下载链接:
https://huggingface.co/datasets/jinyu-xu/TPC-268
下载链接
链接失效反馈
官方服务:
资源简介:
TPC-268 是一个大规模、细粒度的植物计数数据集,专门设计用于解决自然世界中视觉计数的独特挑战,特别是针对高度多样化和非刚性的植物形态。该数据集明确整合了植物分类学信息,涵盖了从冠层遥感观测到组织显微级别的极端观测尺度。数据集包含 10,000 张图像,标注了 678,050 个实例级点和 30,000 个示例边界框。其分类体系采用完整的 7 级林奈分类法,涵盖 2 个界(植物界和真菌界)、2 个门、4 个纲、35 个目、83 个科、192 个属和 242 个种。数据集还定义了 268 个细粒度的“物种-组织”目标,为计数任务提供精确的语义(如花、果实、叶、茎、气孔、树脂等)。数据集适用于对象检测、零样本对象检测、计数、少样本学习等任务,特别适合植物表型分析、农业和生物学研究。数据集采用 CC BY-NC-SA 4.0 许可,仅限学术研究使用。
创建时间:
2026-03-30
原始信息汇总

TPC-268 数据集概述

基本信息

  • 数据集名称: Plant Taxonomy Meets Plant Counting: A Fine-Grained, Taxonomic Dataset for Counting Hundreds of Plant Species (TPC-268)
  • 发布状态: CVPR 2026 Oral
  • 许可证: CC BY-NC-SA 4.0 (仅限学术研究)
  • 任务类别: 目标检测、零样本目标检测
  • 标签: 计数、类别无关计数、小样本、植物表型、农业、生物学、分类学
  • 数据规模: 10K < n < 100K

数据集核心内容

  • 图像数量: 10,000 张
  • 图像特点: 涵盖从冠层遥感观测到组织显微观测的极端观测尺度。
  • 标注内容:
    • 678,050 个实例级点标注。
    • 30,000 个范例边界框。
  • 分类学体系: 完整的 7 级林奈分类层次,涵盖:
    • 2 个界 (Plantae, Fungi)
    • 2 个门
    • 4 个纲
    • 35 个目
    • 83 个科
    • 192 个属
    • 242 个种
  • 计数目标: 268 个细粒度的“物种-组织”类别,为计数提供精确语义(例如:花、果实、叶、茎、气孔、树脂)。

数据组织与获取

  • 下载地址:
  • 文件结构: 解压后,图像严格按分类学和组织结构组织: TPC-268/[Genus_Species]/[Organization]/[Genus_Species]_[Organization]_[index].jpg

标注文件与数据划分

核心数据文件位于 annotations/splits/ 目录:

  • annotations/tpc268_annotations.json: 实例级点标注和范例的4点坐标。
  • annotations/tpc268_taxonomy_ids.json: 层次分类级别(界到种)到唯一数字ID的映射。
  • annotations/tpc268_taxonomy_vectors.json: 每个植物物种的7维分类学特征向量。
  • splits/tpc268_[train|val|test].txt: 用于数据加载的相对图像路径列表。
  • splits/tpc268_split.json: 划分到训练、验证和测试集的特定物种-组织类别列表。

工具脚本

tools/ 目录提供以下实用工具:

  • tpc268_dataset.py: 用于加载图像和标注的标准化 PyTorch Dataset 类。
  • tpc268_visualize_dataset.py: 在图像上叠加标注的可视化脚本。
  • TPC268_Annotator.html: 用于在浏览器中直接浏览和编辑标注的 HTML 工具。
  • tpc268_generate_benchmark_split.py: 生成数据集划分列表的脚本。

基准测试结果

下表报告了在 TPC-268 上的 3-shot 计数性能(最佳性能已加粗):

方法 骨干网络 验证集 MAE 验证集 RMSE 验证集 $R^2$ 测试集 MAE 测试集 RMSE 测试集 $R^2$
FamNet R50 28.87 52.51 0.58 30.43 65.62 0.62
BMNet+ R50 29.33 77.78 0.47 27.78 57.25 0.74
C-DETR R50 22.66 77.51 0.75 22.68 57.97 0.74
SPDCNet R18 25.66 72.49 0.52 23.70 47.53 0.64
CountTR Hybrid 20.21 55.82 0.73 25.19 49.94 0.62
SAFECount R18 22.57 63.65 0.64 25.70 52.30 0.58
LOCA R50 17.26 53.19 0.75 17.51 38.37 0.78
DAVE R50 16.47 52.87 0.76 17.61 40.06 0.75
CACVIT ViT-B 16.63 42.49 0.82 22.04 41.79 0.73
CountGD Swin-B 18.32 54.55 0.74 19.52 50.51 0.61
TasselNetV4 ViT-B 13.20 43.93 0.83 22.95 51.36 0.60

引用

如果 TPC-268 对您的研究有帮助,请引用: bibtex @inproceedings{xu2026plant, title={Plant Taxonomy Meets Plant Counting: A Fine-Grained, Taxonomic Dataset for Counting Hundreds of Plant Species}, author={Xu, Jinyu and Hu, Tianqi and Hu, Xiaonan and Zhou, Letian and Cao, Songliang and Zhang, Meng and Lu, Hao}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2026} }

搜集汇总
数据集介绍
main_image_url
构建方式
在植物表型组学与计算机视觉交叉领域,TPC-268数据集的构建体现了对自然世界复杂性的深刻理解。该数据集通过系统采集一万张图像,覆盖从冠层遥感至组织显微的极端观测尺度,确保了视觉场景的广泛多样性。其标注工作细致入微,不仅提供了超过六十七万个实例级点标注与三万个范例边界框,更创新性地融入了完整的林奈七级分类体系,涵盖两个界至二百四十二个物种,并定义了二百六十八个细粒度的“物种-器官”目标类别,为计数任务赋予了精确的语义层次。
特点
TPC-268数据集的核心特征在于其首次将植物分类学与类无关计数任务深度融合。数据集内嵌了完整的分类学层级结构,从界、门、纲、目、科、属到种,为模型提供了可迁移的层次化先验知识。其包含的二百六十八个细粒度类别,如花朵、果实、叶片等特定器官,精准刻画了植物形态的高度多样性与非刚性特点。图像尺度跨越宏观至微观,极大增强了模型在复杂自然场景下的泛化与适应能力。
使用方法
为便利研究者使用,数据集提供了标准化的PyTorch Dataset类,可便捷加载图像与标注文件。数据按严格的分类学与器官目录结构组织,用户可通过提供的分割文件快速构建训练、验证与测试集。此外,工具包中包含了可视化脚本与基于浏览器的标注浏览工具,便于结果分析与标注校验。该数据集专为评估类无关计数模型在细粒度、跨物种场景下的性能而设计,尤其适合推动少样本学习与零样本检测方法在农业与生物学中的应用。
背景与挑战
背景概述
在计算机视觉与植物表型学交叉领域,精细化的植物计数对于理解生态系统功能、评估作物产量以及监测生物多样性具有至关重要的意义。TPC-268数据集由Jinyu Xu、Hao Lu等研究人员于2026年构建,并作为CVPR会议的口头报告成果正式发布。该数据集的核心研究问题在于解决自然场景中植物形态高度多样且非刚性条件下的类无关计数挑战,通过整合完整的林奈分类学层级体系,涵盖了从宏观冠层遥感至微观组织镜检的极端观测尺度。其创新性地定义了268个细粒度的“物种-组织”类别,为视觉计数模型提供了精确的语义基础,显著推动了农业智能化、植物生物学及分类学相关领域的研究进展。
当前挑战
TPC-268数据集旨在应对植物类无关计数领域的核心挑战,即如何在形态、尺度及外观差异极大的自然植物场景中,实现高精度、可泛化的实例计数。这一挑战具体体现在模型需克服植物器官的非刚性形变、密集遮挡、光照变化以及跨物种相似性等复杂视觉干扰。在数据集构建过程中,研究者同样面临诸多困难:需要跨越多个生物学分类层级采集并标注十万余个实例点,确保涵盖2个界、4个纲、83个科、242个物种的广泛代表性;同时,在极端的观测尺度范围内——从遥感冠层到显微组织——维持标注的一致性与准确性,并对每一实例关联其精确的物种与组织类型信息,这要求标注过程兼具植物学专业知识与严谨的视觉标注规范。
常用场景
经典使用场景
在植物表型学与计算机视觉的交叉领域,TPC-268数据集为类无关计数任务提供了标准化的评估基准。该数据集凭借其精细的物种-组织类别划分与完整的林奈分类学层级结构,常被用于开发和验证少样本或零样本计数模型。研究者利用其涵盖从冠层遥感至显微组织等多尺度观测的图像,评估模型在高度多样且非刚性植物形态下的泛化能力与计数精度,推动了视觉计数技术在自然复杂场景中的进步。
解决学术问题
TPC-268数据集主要解决了植物视觉计数中因物种形态高度多样性与标注稀缺性带来的挑战。通过整合268个精细的物种-组织类别与完整的分类学知识,该数据集为探索类无关计数、少样本学习以及跨物种泛化等核心问题提供了结构化基础。其意义在于首次将分类学层级信息系统性地引入计数任务,使得模型能够利用分类学关联进行知识迁移,从而提升对未知或罕见植物类别的计数性能,填补了精细粒度自然物体计数研究的数据空白。
衍生相关工作
围绕TPC-268数据集,已衍生出一系列专注于少样本与类无关计数的经典研究工作。例如,LOCA、DAVE和CACVIT等先进计数模型均在TPC-268上进行了基准测试与性能优化,这些工作探索了如何利用分类学向量或层级结构来增强模型的特征表示与泛化能力。同时,该数据集也促进了跨模态与自监督学习在植物计数中的探索,为构建更鲁棒、可解释的视觉计数系统提供了重要的实验平台与驱动力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作