PairTally

github2025-09-17 更新2025-09-18 收录

下载链接：

https://github.com/bbvisual/PairTally_Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

PairTally是第一个专门设计用于测试细粒度类别内差异的计数基准数据集，包含681张高分辨率、受控的图像对，涵盖5个超类别（食品、娱乐、家居、办公和其他），54个对象类别和98个子类别

PairTally is the first counting benchmark dataset specifically designed to test fine-grained within-category differences. It contains 681 high-resolution, controlled image pairs, covering 5 super-categories (Food, Entertainment, Home, Office, and Others), 54 object categories, and 98 sub-categories.

创建时间：

2025-09-08

原始信息汇总

PairTally 数据集概述

数据集基本信息

名称：PairTally
简介：首个专门设计用于测试细粒度类内区分的计数基准数据集
图像总数：681张高分辨率图像
对象类别：54个
子类别：98个
超类别：5个（食品、娱乐、家居、办公、其他）
类别间对：50对
类别内对：47对

数据集结构

PairTally/ ├── images/ # 681张高分辨率图像 ├── annotations/ │ ├── pairtally_annotations_simple.json │ └── image_metadata.json └── evaluation/ # 评估脚本和工具

属性分布

属性类型	占比	示例
颜色	43.5%	黑白棋子
形状/纹理	42.5%	螺旋形与笔管面
大小	14.1%	大小弹珠

评估模型

数据集评估了10种最先进模型，涵盖三种计数范式：

CountGD（多模态开放世界计数）
DAVE（检测-验证范式）
GeCo（少样本计数统一架构）
LoCA（学习计数一切）
FamNet（学习计数一切）
LLMDET
视觉语言模型（Qwen2.5-VL、LLaMA-3.2、InternVL3、Ovis2）

主要性能结果

整体性能（所有对象计数）

最佳模型：CountGD（MAE：46.67）
最差模型：FamNet（MAE：75.83）

类别间与类别内性能

类别间MAE最佳：CountGD（39.78）
类别内MAE最佳：DAVE（46.75）

属性特定性能（类别内）

颜色MAE最佳：DAVE（63.44）
大小MAE最佳：CountGD（36.30）
纹理MAE最佳：DAVE（34.14）

关键发现

模型局限性：即使性能最佳的模型MAE也超过50，表明有显著改进空间
干扰物敏感性：大多数模型处理类别内对比类别间区分更困难
属性层次：颜色差异最易区分，大小差异最具挑战性
VLM性能：大型视觉语言模型表现不如专门的计数方法
过度计数偏差：模型经常计数所有对象而非遵循特定提示

许可证

类型：CC BY 4.0
用途：学术研究

引用格式

bibtex @inproceedings{nguyen2025pairtally, title={Can Current AI Models Count What We Mean, Not What They See? A Benchmark and Systematic Evaluation}, author={Nguyen, Gia Khanh and Huang, Yifeng and Hoai, Minh}, booktitle={Digital Image Computing: Techniques and Applications (DICTA)}, year={2025} }

联系方式

Gia Khanh Nguyen
澳大利亚机器学习研究所
阿德莱德大学
邮箱：giakhanh.nguyen01@adelaide.edu.au

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，细粒度物体计数任务对模型的理解能力提出了更高要求。PairTally数据集的构建采用了精心设计的控制配对方法，通过采集681张高分辨率图像，涵盖54个对象类别和98个子类别，并划分为5个超类别。构建过程中特别注重类内细微差异的呈现，通过人工标注生成包含正负样本点的精确标注数据，确保数据集的多样性和挑战性。

使用方法

研究人员可通过克隆GitHub仓库并按照说明配置环境来使用该数据集。数据集提供完整的评估脚本和工具，支持多种先进计数模型的性能测试。用户可以使用提供的Jupyter笔记本进行数据可视化和统计分析，也可以通过Python API直接访问标注数据。数据集还提供了自定义模型评估模板，方便研究者将自己的模型与现有基准进行比较。

背景与挑战

背景概述

PairTally数据集由澳大利亚机器学习研究所与阿德莱德大学联合开发，于2025年正式发布，旨在解决计算机视觉领域意图驱动计数任务的评估空白。该数据集包含681张高分辨率图像，涵盖54个对象类别和98个子类别，通过精细标注的类内差异（如颜色、形状、纹理、尺寸）构建了97对对比样本。其核心研究聚焦于测试模型是否能够根据人类意图而非视觉显著性进行精确计数，对智能计数模型的鲁棒性和泛化能力提出了更高要求，为视觉-语言模型在细粒度感知任务中的性能评估提供了重要基准。

当前挑战

PairTally所应对的核心领域挑战在于解决现有计数模型对类内细微差异的敏感性不足问题，特别是当目标对象与干扰项具有高度相似性时，模型往往无法准确区分计数意图。在构建过程中，团队面临标注一致性的挑战，需要精确界定颜色渐变、纹理混合和尺寸连续变化等模糊边界；同时还需平衡不同属性（颜色43.5%、形状纹理42.5%、尺寸14.1%）的样本分布，确保评估的全面性和公正性。高分辨率图像的采集与标准化处理亦增加了数据集的构建复杂度。

常用场景

经典使用场景

在视觉计数研究领域，PairTally数据集通过精心设计的681组高分辨率图像对，为模型评估提供了精细化测试基准。该数据集特别关注同类物体间的细微差异区分，涵盖颜色、形状、纹理和尺寸等多维度属性对比，成为验证模型是否能够准确理解计数意图而非简单视觉感知的关键工具。研究者通过分析模型在跨类别与同类别配对样本上的表现差异，能够深入探究视觉计数系统的认知边界与局限性。

解决学术问题

PairTally有效解决了当前计算机视觉领域在意图驱动计数任务中的核心挑战。传统计数模型往往过度依赖视觉特征而忽略语义意图，导致在需要区分相似物体的场景中出现系统性误差。该数据集通过构建具有明确正负样本标注的对比样本，为研究社区提供了量化模型语义理解能力的标准框架，显著推进了细粒度视觉推理任务的研究进程，为开发更符合人类认知习惯的计数系统奠定理论基础。

实际应用

在实际应用层面，PairTally数据集支撑的场景广泛涉及智能零售、工业检测和医疗影像分析等领域。在零售场景中，系统需要准确区分不同规格的商品进行库存管理；在制造业中，检测设备需辨别合格与缺陷产品的细微差异；医疗影像分析则要求精确计数特定形态的细胞或病变组织。这些应用都要求模型不仅能识别物体，更能理解操作者的具体计数意图，避免因视觉相似性导致的误判。

数据集最近研究