Pixel-level ReasonIng Segmentation Dataset Based on Multi-Turn Conversations (PRIST)
收藏arXiv2025-02-14 更新2025-02-15 收录
下载链接:
https://github.com/ccccai239/PixelRIST
下载链接
链接失效反馈官方服务:
资源简介:
PRIST数据集是由东北大学创建的,包含8.3k个基于多轮对话的细粒度分割目标的高质量多轮对话场景。该数据集通过模拟人类的多步骤推理过程,将多轮对话与像素级分割任务相结合,为像素级推理分割任务提供了一个有价值的研究资源。
The PRIST dataset was developed by Northeastern University (China). It contains 8.3k high-quality multi-turn dialogue scenarios that incorporate fine-grained segmented objects linked to multi-turn conversational contexts. By simulating human multi-step reasoning procedures, this dataset integrates multi-turn dialogues and pixel-level segmentation tasks, offering a valuable research resource for studies on pixel-level reasoning and segmentation tasks.
提供机构:
东北大学
创建时间:
2025-02-14
搜集汇总
数据集介绍

构建方式
PRIST数据集的构建基于多轮对话,旨在追踪用户意图的演变,从而实现细粒度的分割。构建过程分为三个步骤:首先,从图像中提取可见元素,为后续步骤建立语义基础。其次,构建推理过程,包括形成推理问题和构建推理树,以模拟人类多步骤推理过程。最后,基于推理树生成多轮对话。
特点
PRIST数据集的特点包括:1)包含24k个话语和8.3k个多轮对话场景,每个场景都有一个具体的分割目标;2)数据集重点关注像素级分割任务,引入了多轮推理和意图理解的新挑战;3)数据集采用了三级渐进式自动标注流程,确保了细粒度的分割目标和丰富的语义-空间标注。
使用方法
PRIST数据集的使用方法如下:1)将图像和多轮对话作为输入,生成目标分割掩码和文本推理链;2)使用双视觉编码器融合多尺度特征,捕捉详细的视觉信息;3)引入语义区域对齐策略,将语义信息注入掩码解码器;4)支持多轮交互,逐步澄清用户意图和模糊区域。
背景与挑战
背景概述
Pixel-level ReasonIng Segmentation Dataset Based on Multi-Turn Conversations (PRIST) 是一个由东北大学计算机科学与工程学院的研究团队创建的数据集,旨在解决现有视觉感知系统在像素级推理分割任务中的不足。PRIST 数据集包含 8.3k 个多轮对话场景和 24k 个话语,为像素级推理分割任务提供了一个基准。该数据集的创建填补了像素级推理分割领域的空白,为相关研究提供了宝贵的资源。
当前挑战
PRIST 数据集和相关研究面临的挑战包括:1) 解决领域问题的挑战:现有视觉感知系统主要依赖于单轮对话中的区域级分割,无法在像素级进行推理,也无法理解动态变化的用户意图。2) 构建过程中的挑战:构建一个高质量的像素级推理分割数据集需要解决数据标注的复杂性、推理过程的多样性和多轮对话的连贯性问题。
常用场景
经典使用场景
PRIST数据集的主要用途是在像素级推理分割任务中作为基准数据集。该数据集包含8.3k多轮对话场景,每个场景都包含像素级分割目标,为像素级推理分割研究提供了宝贵的资源。
衍生相关工作
PRIST数据集的发布推动了像素级推理分割任务的研究,衍生出了一系列相关的工作。例如,MIRAS框架就是基于PRIST数据集提出的,该框架通过多轮交互逐步推理用户意图,实现了像素级的分割。此外,PRIST数据集也为其他像素级分割任务的研究提供了参考和启示。
数据集最近研究
最新研究方向
随着多模态大语言模型(MLLMs)在视觉感知领域的不断进步,像素级推理分割(Pixel-level RS)已成为研究的热点。PRIST数据集的提出为像素级分割研究提供了新的方向,其多轮对话的特性使得系统能够理解并追踪用户意图的变化,从而实现更精细的分割。MIRAS框架则进一步将像素级分割与多轮对话理解相结合,为像素级分割任务提供了新的思路。未来研究可以进一步探索推理树在图像元素间关系的建模,以及构建多目标、多级别的分割数据集,以提升像素级分割的准确性和鲁棒性。
相关研究论文
- 1Pixel-Level Reasoning Segmentation via Multi-turn Conversations东北大学 · 2025年
以上内容由遇见数据集搜集并总结生成



