PointPrompt

Name: PointPrompt
Creator: 乔治亚理工学院
Published: 2024-10-29 21:56:31
License: 暂无描述

arXiv2024-10-29 更新2024-11-02 收录

下载链接：

https://github.com/olivesgatech/PointPrompt

下载链接

链接失效反馈

官方服务：

资源简介：

PointPrompt是由乔治亚理工学院的OLIVES中心创建的一个视觉提示数据集，包含6000张来自多个领域的图像。数据集涵盖了自然图像、医学图像、地震图像和水下图像等多个类别，旨在研究人类和自动化提示在图像分割任务中的差异。数据集的创建过程包括从公开数据库中采样图像，并使用SAM模型进行标注。PointPrompt的应用领域主要集中在图像分割和视觉提示策略的研究，旨在解决自动化提示与人类提示之间的性能差距问题。

PointPrompt is a visual prompt dataset developed by the OLIVES Center at the Georgia Institute of Technology, which comprises 6000 images spanning multiple domains. The dataset encompasses diverse categories including natural, medical, seismic, and underwater imagery, among others, aiming to explore the discrepancies between human and automated prompts in image segmentation tasks. The creation process of PointPrompt involves sampling images from public databases and annotating them using the SAM model. The primary application scenarios of PointPrompt focus on research in image segmentation and visual prompt strategies, with the goal of bridging the performance gap between automated prompts and human prompts.

提供机构：

乔治亚理工学院

创建时间：

2024-10-29

原始信息汇总

PointPrompt 数据集概述

数据集描述

PointPrompt 是一个视觉提示数据集，基于 Segment Anything Model (SAM) 设计，旨在研究自动化视觉提示选择策略与人类提示之间的差异及其对分割性能的影响。

数据集结构

数据集包含两个主要部分：

Image datasets.zip:
- 包含所有图像数据集及其对应的地面真值标签。
- 每个图像数据集包含 400 对图像和地面真值掩码，格式为 .npy 数组。
Prompting data.zip:
- 包含从人类注释者收集的提示数据。
- 结构如下：
  
  Prompting Results ├── Baseball bat # 图像数据集 ├── st1 # 人类注释者 # 1 ├── eachround # 长度为 t 的列表，指示每个时间步属于哪一轮 ├── masks # 包含每个图像的二进制掩码，格式为 a_b_mask.png ├── points # 包含包含和排除点，格式为 a_green.npy 和 a_red.npy ├── scores # 包含每个时间步的分数 (mIoU) ├── sorts # 包含按分数从高到低排序的时间步索引 ├── st2 # 人类注释者 # 2 (结构与 st1 相同) ├── st3 # 人类注释者 # 3 (结构与 st1 相同)

数据集使用

代码使用

点采样策略实验:
- 进入 point_sampling 目录。
- 阅读 Instructions.md 文件。
- 运行 main.py 脚本，需指定 --img_dir、--results_dir 和 --home_dir 参数。
- 通过 --query_strategy 参数指定要运行的策略。
微调:
- 数据集结构需调整为特定格式。
- 安装依赖：pip install -r requirements.txt。
- 运行 train.py 进行微调，保存权重。
- 运行 inference.py 测试模型并保存结果。
特征提取:
- 安装依赖：pip install -r requirements.txt。
- 运行 gather_statistics.py 提取图像、提示和一般级别特征。

引用

J. Quesada∗, Z. Fowler∗, M. Alotaibi, M. Prabhushankar, and G. AlRegib, ”Benchmarking Human and Automated Prompting in the Segment Anything Model”, In IEEE International Conference on Big Data 2024, Washington DC, USA.

搜集汇总

数据集介绍

构建方式

PointPrompt数据集的构建基于SAM（Segment Anything Model），通过精心策划的6000张图像，构建了16个来自不同领域的图像数据集。这些数据集包括从COCO数据库中选取的9个类别（如狗、猫、鸟等），从NDD20数据库中选取的2个类别（海豚水上和水下），以及3个医学数据集（如胸部X光、Kvasir-SEG和ISIC）和2个地震数据集（如盐丘和白垩群）。数据集的构建过程中，使用了SAM的提示工具，允许标注者通过交互式点击方式添加包含点和排除点，从而生成提示数据序列，包括提示点坐标、生成的掩码以及与真实掩码的交并比（IoU）得分。

特点

PointPrompt数据集的显著特点在于其多样性和丰富性。它涵盖了从自然图像到医学影像、地震数据等多个领域，每个图像类别都由多个标注者进行标注，确保了数据的多视角和高质量。此外，数据集不仅包含人类生成的提示点，还引入了多种自动化的提示点生成策略，如随机采样、K-Medoids聚类、Shi-Tomasi角点检测等，为研究人类与自动化提示点生成策略的差异提供了丰富的实验材料。

使用方法

PointPrompt数据集主要用于评估和比较人类与自动化提示点生成策略在图像分割任务中的性能。研究者可以通过该数据集进行多种实验，如比较不同提示点生成策略的分割效果、探索提示点生成策略对分割性能的影响、以及通过微调SAM的提示编码器来提升分割性能。此外，数据集还提供了丰富的特征提取和性能解码分析，帮助研究者理解提示点生成策略的有效性及其背后的关键因素，从而设计出更有效的提示策略。

背景与挑战

背景概述

PointPrompt数据集由乔治亚理工学院的OLIVES中心于2024年创建，主要研究人员包括Jorge Quesada、Zoe Fowler、Mohammad Alotaibi、Mohit Prabhushankar和Ghassan AlRegib。该数据集的核心研究问题在于评估和比较人类与自动化提示在Segment Anything Model（SAM）中的图像分割任务中的表现。PointPrompt数据集的构建旨在填补当前对自动化视觉提示策略有效性理解的空白，特别是在与人类提示进行对比时。该数据集的发布为计算机视觉领域提供了一个重要的基准，有助于推动基于提示的图像分割技术的发展。

当前挑战

PointPrompt数据集面临的挑战主要包括两个方面：一是解决图像分割领域中自动化提示策略与人类提示之间的性能差距问题；二是构建过程中遇到的多样化图像域和多注释者数据的整合问题。具体挑战包括：1) 自动化提示策略在不同图像域中的适应性和性能评估；2) 如何通过微调SAM的提示编码器来缩小人类与自动化提示之间的性能差距；3) 识别和量化影响提示性能的关键因素，以便设计更有效的提示策略。这些挑战不仅涉及技术层面的算法优化，还涉及对人类视觉认知机制的深入理解。

常用场景

经典使用场景

PointPrompt数据集在图像分割领域中被广泛用于评估和比较人类与自动化提示生成策略的有效性。通过提供多样化的图像类别和多个人类标注者的提示数据，该数据集为研究者提供了一个全面的基准，以探索和量化人类提示与自动化提示之间的差异。具体任务包括比较不同提示生成策略的分割性能、评估微调提示编码器对性能的影响，以及分析提示特征与分割性能之间的关系。

衍生相关工作

PointPrompt数据集的发布催生了一系列相关研究工作，特别是在图像分割和提示生成策略领域。研究者们利用该数据集进行了一系列实验，探索了不同提示生成策略的性能差异，并提出了多种微调方法以提高模型的适应性。此外，数据集还促进了特征提取和性能解码的研究，帮助理解提示特征与分割性能之间的关系。这些研究不仅推动了图像分割技术的发展，还为其他领域的提示工程研究提供了宝贵的参考和借鉴。

数据集最近研究