RR-7K
收藏github2026-03-29 更新2026-03-23 收录
下载链接:
https://github.com/AAwcAA/WOW-Seg-Meta
下载链接
链接失效反馈官方服务:
资源简介:
RR-7K是一个开放世界区域识别测试基准,包含7,662个类别,是迄今为止类别最丰富的区域识别数据集。
RR-7K is an open-world regional recognition test benchmark that contains 7,662 categories, making it the most category-rich regional recognition dataset to date.
创建时间:
2026-02-28
原始信息汇总
WOW-SEG数据集概述
数据集基本信息
- 数据集名称:RR-7K(Region Recognition Dataset)
- 核心用途:作为开放世界区域识别测试基准,用于评估模型在开放集类别下的分割与识别能力。
- 类别规模:包含7,662个类别,是目前类别最丰富的区域识别数据集。
数据集获取
- Hugging Face平台:https://huggingface.co/datasets/AAwcAA/RR-7K
- ModelScope平台:https://www.modelscope.cn/datasets/AAwcAA/RR-7K
数据集关联模型
- 模型名称:WOW-Seg(Word-free Open World Segmentation model)
- 模型特点:引入视觉提示模块Mask2Token,将图像掩码转换为视觉令牌并与VLLM特征空间对齐;采用级联注意力掩码以解耦不同实例间的信息,减少实例间干扰。
- 模型下载地址:https://huggingface.co/AAwcAA/WOW-Seg
评估方法
- 评估脚本位置:
wow_eval/目录 - 主要流程:
- 将Osprey格式的标注转换为InternVL JSONL格式。
- 运行基于掩码条件的推理。
- 依赖数据:
- COCO图像(作为
--image_root参数,例如train2017/、val2017/)。 - Osprey评估JSON(来自Osprey项目,需使用
convert_osprey_to_internvl.py转换)。 - WOW-Seg模型检查点。
- SentenceBERT模型(例如
all-MiniLM-L6-v2)。
- COCO图像(作为
许可信息
- 代码仓库遵循Apache 2.0许可证。
引用信息
- 相关论文已被ICLR 2026接收。
- 若在研究中使用本数据集或模型,请引用提供的BibTeX条目。
搜集汇总
数据集介绍

构建方式
在计算机视觉领域,区域识别任务对数据集的类别覆盖广度提出了极高要求。RR-7K数据集的构建源于对开放世界分割模型的评估需求,其核心是从现有的大规模视觉语言数据中系统性地提取和整理。具体而言,研究团队以Osprey风格的标注为基础,通过精心设计的转换流程,将图像中的区域掩码与对应的类别描述进行对齐与结构化,最终形成了一个包含7,662个类别的庞大集合。这一过程不仅确保了每个样本都具备精确的掩码边界和语义标签,也使得该数据集成为迄今类别最为丰富的区域识别基准。
特点
RR-7K数据集最显著的特征在于其前所未有的类别规模与开放性。该数据集涵盖了多达七千余个视觉类别,远超传统数据集的类别数量,为评估模型在开放世界场景下的泛化与识别能力提供了坚实的测试基础。其样本结构清晰,每个数据点均包含高质量的图像区域掩码及对应的细粒度类别标签,确保了评估的精确性与可重复性。此外,数据集遵循标准的格式规范,便于与主流评估流程集成,为推进开放词汇分割与区域识别研究设立了新的标杆。
使用方法
使用RR-7K数据集进行评估时,需遵循一套标准化的技术流程。首先,需要准备COCO数据集图像作为根目录,并获取原始的Osprey评估JSON文件。通过运行专用的转换脚本,将Osprey格式的标注转换为与InternVL兼容的JSONL格式。随后,加载预训练的WOW-Seg模型权重以及SentenceBERT等文本编码模型,执行掩码条件下的推理任务。评估脚本支持单GPU与多GPU并行计算,用户可通过调整子集参数灵活控制计算规模,最终输出区域级别的分类结果,从而全面衡量模型在开放世界设定下的性能表现。
背景与挑战
背景概述
在计算机视觉领域,开放世界分割旨在突破传统封闭类别识别的局限,实现对未知或开放类别物体的精准分割与识别。RR-7K数据集作为WOW-Seg模型的核心评测基准,由南开大学、四川农业大学及北京大学的研究团队于2026年构建,其核心研究问题聚焦于区域识别任务中的开放词汇分类挑战。该数据集包含7,662个类别,是目前类别最丰富的区域识别数据集,为评估模型在开放场景下的泛化能力提供了重要支撑,推动了视觉语言模型与分割技术的交叉融合。
当前挑战
RR-7K数据集所针对的开放世界分割任务面临多重挑战:在领域层面,模型需处理海量且动态变化的类别,克服类别间语义重叠与长尾分布问题,同时实现无需文本提示的纯视觉驱动识别;在构建过程中,数据采集需覆盖广泛且细粒度的视觉概念,确保标注质量与一致性,而大规模掩码与类别对齐也带来了计算复杂度与存储管理的严峻考验。
常用场景
经典使用场景
在开放世界视觉识别领域,RR-7K数据集作为区域识别基准,其经典使用场景在于评估模型对开放集类别物体的分割与识别能力。该数据集通过提供覆盖7,662个类别的丰富样本,使研究者能够系统测试模型在未见类别上的泛化性能,尤其在零样本或少量样本设置下,为视觉语言模型的区域级理解提供了标准化评估框架。
衍生相关工作
围绕RR-7K数据集,已衍生出多项经典研究工作。其中,WOW-Seg模型引入了视觉提示模块Mask2Token与级联注意力掩码,显著提升了开放世界分割性能。此外,该数据集也促进了视觉语言大模型在区域识别任务上的适配与优化,推动了如Osprey等开放词汇分割方法的演进,为后续研究提供了重要的基准与灵感来源。
数据集最近研究
最新研究方向
在开放世界视觉分割领域,RR-7K数据集作为WOW-Seg模型的核心评估基准,正推动着无文本开放世界分割技术的前沿探索。该数据集以其7,662个类别的庞大规模,成为当前类别最丰富的区域识别基准,为模型在开放集场景下的泛化能力提供了严谨的测试平台。研究焦点集中于如何通过视觉提示模块(如Mask2Token)将图像掩码转化为视觉令牌,并实现与大视觉语言模型特征空间的对齐,同时利用级联注意力掩码机制解耦不同实例间的信息干扰,从而显著提升模型在未知类别上的识别精度。这一方向紧密关联于通用人工智能在视觉理解中的热点进展,旨在突破传统封闭词汇分割的局限,为机器人感知、自动驾驶等实际应用提供更灵活、更强大的视觉认知基础,具有重要的学术与工程意义。
以上内容由遇见数据集搜集并总结生成



