Jinjing713/HC-RefLoCo

Name: Jinjing713/HC-RefLoCo
Creator: Jinjing713
Published: 2024-06-05 12:01:54
License: 暂无描述

Hugging Face2024-06-05 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Jinjing713/HC-RefLoCo

下载链接

链接失效反馈

官方服务：

资源简介：

HC-RefLoCo（人类中心化指代表达理解长上下文）是一个基准测试数据集，旨在解决当前人类中心化AI研究中多模态任务（如指代表达理解）的不足。该数据集包含13,452张图片、24,129个实例和44,738个详细注释，涵盖了18,681个词汇。每个注释平均包含93.2个单词，涉及外观、人-物交互、位置、动作、名人和OCR等主题。HC-RefLoCo提供了更广泛的实例规模和多样化的评估协议，包括各种IoU标准、规模感知评估和特定主题评估。实验评估了24个模型，展示了HC-RefLoCo在推动人类中心化AI发展方面的潜力。数据集结构包括图像文件和注释文件，注释文件为Parquet格式，包含每个图像的详细注释信息。

提供机构：

Jinjing713

原始信息汇总

数据集概述

名称: HC-RefLoCo (Human-Centric Referring Expression Comprehension with Long Context)

描述: HC-RefLoCo是一个专注于人类中心参照表达理解的大型多模态模型数据集。它包含13,452张图像，24,129个实例，以及44,738个详细注释，涵盖18,681个词汇。每个注释平均包含93.2个单词，涉及外观、人-物交互、位置、动作、名人等主题。数据集旨在通过提供多样化的实例规模和评估协议，挑战现代参照表达理解模型。

语言: 英语

标签:

参照表达理解
以人为中心
大型多模态模型

大小: 10K<n<100K

数据集结构

文件结构:

./HC_RefLoCo ├── hc_refloco_test.parquet ├── hc_refloco_val.parquet └── images.tar.gz

文件描述:

images.tar.gz: 包含数据集使用的图像文件。
hc_refloco_test/val.parquet: 包含数据集的注释，每个文件是一个字典列表，每个字典代表一个图像的注释。

注释格式

注释字段:

bbox: 标注对象的边界框坐标。
bbox_area: 边界框的面积。
caption: 标注对象的文本描述。
file_name: 图像文件名。
height: 图像高度。
is_rewrite: 是否为重写版本的标注。
split: 数据集分割（val或test）。
width: 图像宽度。
id: 注释的唯一标识符。
labels: 与注释相关的标签列表，每个标签包含类别、数值标签和在描述中的位置。
source_dataset_split: 原始数据集分割。
source_dataset: 数据集来源。

许可证

许可证: 数据集遵循Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) license。

搜集汇总

数据集介绍

构建方式

在人类中心人工智能领域，传统基准往往局限于单一模态任务，难以适应大语言模型时代的多模态融合需求。HC-RefLoCo数据集通过整合COCO 2017、Objects365、OpenImages V7及Laion 5B等权威视觉数据集，构建了一个包含13,452张图像、24,129个实例及44,738条标注的大规模基准。每条标注平均包含93.2个词汇，涵盖外观、人机交互、位置、动作、名人识别及光学字符识别六大主题，并经过人工严格审核以确保准确性。数据以Parquet格式存储，包含验证集与测试集，为模型评估提供了结构化的多模态语料。

特点

该数据集的核心特征在于其长语境描述与丰富词汇覆盖，标注文本平均长度显著超越传统基准，词汇量达18,681个，增强了语言表达的多样性与复杂性。实例尺度分布广泛，支持基于交并比阈值、尺度感知及主题专项的多样化评估协议。标注结构精细，每条记录均包含边界框坐标、区域面积、多类别标签及文本位置跨度，实现了视觉与语言信息的深度融合。这些特性使其能够全面检验大语言模型在指代表达理解任务中的细粒度推理与跨模态对齐能力。

使用方法

使用HC-RefLoCo数据集时，需通过Git LFS工具克隆HuggingFace仓库获取图像压缩包与标注文件。评估流程依赖官方GitHub仓库提供的数据加载器与评测接口，用户可参照示例代码集成模型进行自动化测试。数据集以标准Parquet格式组织，每条标注包含图像元数据、边界框信息、长文本描述及分层标签，便于直接解析与批量处理。研究人员可通过调整交并比阈值或聚焦特定主题类别，开展定制化性能分析，推动人类中心指代表达理解技术的迭代与优化。

背景与挑战

背景概述

随着多模态大模型的兴起，人本人工智能研究正从传统的单模态任务转向语言与视觉内容的深度融合。指代表达理解作为多模态交互的核心任务，其现有基准在测试样本规模、表达丰富度及词汇多样性方面存在局限，难以充分评估现代模型的综合能力。为此，研究团队于近期构建了HC-RefLoCo基准数据集，该数据集包含逾1.3万张图像、2.4万个实例及4.4万条精细标注，平均每条标注长达93.2词，覆盖外观、交互、位置、动作等多维主题，旨在通过大规模、长语境、细粒度的数据推动人本指代表达理解领域的前沿探索。

当前挑战

HC-RefLoCo致力于应对人本指代表达理解领域的两大核心挑战：一是现有基准在测试样本不足、表达过于简略、词汇覆盖有限等方面难以满足多模态大模型的评估需求；二是在数据集构建过程中，需克服长语境标注的语义一致性维护、多源图像数据的版权与格式整合、以及细粒度标签体系的设计与验证等复杂问题。这些挑战共同指向了构建高质量、可扩展、评估维度丰富的多模态基准的必要性与艰巨性。

常用场景

经典使用场景

在视觉语言多模态研究领域，HC-RefLoCo数据集为指代表达理解任务提供了经典评估基准。该数据集通过包含超过1.3万张图像和4.4万条详细标注，构建了涵盖外观、交互、位置等多主题的长文本指代表达。其标注平均长度达93.2词，词汇量超过1.8万，能够全面检验模型对复杂语言描述与视觉内容关联的理解能力。研究者通常利用该数据集评估模型在多样化尺度、不同交并比阈值下的定位精度，推动指代表达理解技术向更精细、更人性化的方向发展。

实际应用

在实际应用层面，HC-RefLoCo数据集为构建智能交互系统提供了关键数据支撑。基于该数据集训练的模型可广泛应用于视觉辅助技术，帮助视障人士通过自然语言描述理解周围环境的人物与互动。在智能监控领域，系统能够根据详细的语言指令精确定位特定人员或行为，提升安防效率。人机交互界面亦可借助此类技术，实现用户通过口语化描述操控或查询图像中的特定目标，增强用户体验。这些应用体现了多模态理解技术向实用化、人性化迈进的趋势。

衍生相关工作

围绕HC-RefLoCo数据集，学术界已衍生出多项经典研究工作。部分研究聚焦于提升大型多模态模型在长文本指代表达下的定位鲁棒性，通过设计新型注意力机制或跨模态融合架构来应对复杂描述挑战。另有工作利用该数据集的细粒度标签开展多任务学习，同步优化指代定位与属性识别等关联任务。在评估方法上，学者们借鉴其尺度感知协议，提出了更全面的模型性能度量标准。这些衍生工作共同推动了人本多模态理解领域在基准构建、模型创新与评估体系方面的协同发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集