HERM-100K

Name: HERM-100K
Creator: 中国科学院计算技术研究所
Published: 2024-10-09 19:14:07
License: 暂无描述

arXiv2024-10-09 更新2024-10-12 收录

下载链接：

http://arxiv.org/abs/2410.06777v1

下载链接

链接失效反馈

官方服务：

资源简介：

HERM-100K是由中国科学院计算技术研究所创建的综合性多模态数据集，旨在提升多模态大语言模型（MLLMs）在以人为中心场景下的理解能力。该数据集包含超过100,000条多层次的人类中心注释，涵盖图像级密集描述、实例级注释和属性级注释，以提供全面的视觉信息。数据集的创建过程利用了GPT-4V生成多样化的图像来源注释，并通过预定义模板和GPT-4提示进行多任务预训练和指令微调。HERM-100K主要应用于增强MLLMs在复杂人类中心场景中的视觉理解和任务执行能力，旨在解决现有数据集在人类中心视觉理解中的不足。

HERM-100K is a comprehensive multimodal dataset developed by the Institute of Computing Technology, Chinese Academy of Sciences, aiming to enhance the human-centric scene understanding capabilities of multimodal large language models (MLLMs). It contains over 100,000 multi-level human-centric annotations, covering dense image-level descriptions, instance-level annotations and attribute-level annotations to provide comprehensive visual information. The dataset construction process leverages GPT-4V to generate diverse annotations for various image sources, and conducts multi-task pre-training and instruction fine-tuning via predefined templates and GPT-4 prompts. HERM-100K is primarily applied to strengthen the visual understanding and task execution abilities of MLLMs in complex human-centric scenarios, targeting to address the shortcomings of existing datasets in human-centric visual understanding.

提供机构：

中国科学院计算技术研究所

创建时间：

2024-10-09

搜集汇总

数据集介绍

构建方式

HERM-100K数据集的构建方式体现了对多模态大语言模型（MLLMs）在以人为中心理解能力上的深度考量。该数据集通过GPT-4V生成，涵盖了超过100,000条以人为中心的注释，这些注释来源于多样化的图像源。HERM-100K的注释结构包括多层次的视觉信息，如图像级别的密集描述，捕捉场景细节；实例级别的注释，覆盖人类的多维度信息；以及属性级别的注释，突出身体部位和罕见属性。这种多层次的结构旨在提升注释的范围和粒度，为MLLMs提供全面的人类视觉信息描述。

特点

HERM-100K数据集的显著特点在于其多层次的注释结构和广泛的应用场景。通过图像级别、实例级别和属性级别的注释，该数据集不仅提供了全面的视觉信息，还增强了模型的细粒度理解能力。此外，HERM-100K的注释由GPT-4V生成，确保了高质量和高一致性。这些特点使得HERM-100K成为评估和提升MLLMs在复杂人类中心场景理解能力的重要资源。

使用方法

HERM-100K数据集的使用方法主要包括两个方面：一是用于多任务预训练阶段，通过构建320,000个图像/区域-文本对，增强模型的多任务处理能力；二是用于指令微调阶段，通过提示GPT-4生成29,000个指令跟随对，提升模型的指令理解和执行能力。此外，HERM-100K还可以用于构建HERM-Bench基准测试，通过多维度的评估问题，全面检验MLLMs在人类中心理解任务上的表现。

背景与挑战

背景概述

HERM-100K数据集由中科院计算技术研究所的研究团队开发，旨在提升多模态大语言模型（MLLMs）在以人为中心的理解能力。该数据集创建于2024年，主要研究人员包括Keliang Li、Zaifei Yang等。HERM-100K的核心研究问题是如何通过多层次的人类中心注释来增强MLLMs的训练，以解决现有图像-文本数据在精确模态对齐和多粒度信息整合方面的不足。该数据集的推出对推动MLLMs在复杂人类中心场景中的应用具有重要影响力。

当前挑战

HERM-100K数据集面临的挑战主要包括两个方面：一是解决现有MLLMs在理解复杂人类中心场景中的局限性，特别是在精确模态对齐和多粒度信息整合方面的不足；二是在构建过程中遇到的挑战，如如何生成高质量的多层次人类中心注释，以及如何确保这些注释能够有效地增强MLLMs的训练。此外，数据集的构建还需要克服现有图像-文本数据在描述人类细节方面的不足，以提升MLLMs在人类中心视觉理解任务中的表现。

常用场景

经典使用场景

HERM-100K 数据集在多模态大语言模型（MLLMs）的人类中心理解能力评估中发挥了关键作用。该数据集通过提供多层次的人类中心注释，增强了 MLLMs 在复杂人类中心场景中的训练。其经典使用场景包括评估 MLLMs 在基本感知和复杂理解任务中的表现，如个体外观识别、姿态识别、人与物体互动分析以及多人物关系理解等。

衍生相关工作

HERM-100K 数据集的引入催生了一系列相关经典工作，特别是在多模态大语言模型（MLLMs）和人类中心理解领域的研究。例如，基于 HERM-100K 的 HERM-7B 模型展示了在人类中心基本感知和复杂理解任务中的优越性能，推动了 MLLMs 在人类中心任务中的应用研究。此外，该数据集还激发了对多模态数据质量和预训练数据集质量的研究，如 LLaVA 和 InstructBLIP 等模型的工作，进一步提升了多模态理解能力。

数据集最近研究