five

HERM-100K

收藏
arXiv2024-10-09 更新2024-10-12 收录
下载链接:
http://arxiv.org/abs/2410.06777v1
下载链接
链接失效反馈
官方服务:
资源简介:
HERM-100K是由中国科学院计算技术研究所创建的综合性多模态数据集,旨在提升多模态大语言模型(MLLMs)在以人为中心场景下的理解能力。该数据集包含超过100,000条多层次的人类中心注释,涵盖图像级密集描述、实例级注释和属性级注释,以提供全面的视觉信息。数据集的创建过程利用了GPT-4V生成多样化的图像来源注释,并通过预定义模板和GPT-4提示进行多任务预训练和指令微调。HERM-100K主要应用于增强MLLMs在复杂人类中心场景中的视觉理解和任务执行能力,旨在解决现有数据集在人类中心视觉理解中的不足。

HERM-100K is a comprehensive multimodal dataset developed by the Institute of Computing Technology, Chinese Academy of Sciences, aiming to enhance the human-centric scene understanding capabilities of multimodal large language models (MLLMs). It contains over 100,000 multi-level human-centric annotations, covering dense image-level descriptions, instance-level annotations and attribute-level annotations to provide comprehensive visual information. The dataset construction process leverages GPT-4V to generate diverse annotations for various image sources, and conducts multi-task pre-training and instruction fine-tuning via predefined templates and GPT-4 prompts. HERM-100K is primarily applied to strengthen the visual understanding and task execution abilities of MLLMs in complex human-centric scenarios, targeting to address the shortcomings of existing datasets in human-centric visual understanding.
提供机构:
中国科学院计算技术研究所
创建时间:
2024-10-09
搜集汇总
数据集介绍
main_image_url
构建方式
HERM-100K数据集的构建方式体现了对多模态大语言模型(MLLMs)在以人为中心理解能力上的深度考量。该数据集通过GPT-4V生成,涵盖了超过100,000条以人为中心的注释,这些注释来源于多样化的图像源。HERM-100K的注释结构包括多层次的视觉信息,如图像级别的密集描述,捕捉场景细节;实例级别的注释,覆盖人类的多维度信息;以及属性级别的注释,突出身体部位和罕见属性。这种多层次的结构旨在提升注释的范围和粒度,为MLLMs提供全面的人类视觉信息描述。
特点
HERM-100K数据集的显著特点在于其多层次的注释结构和广泛的应用场景。通过图像级别、实例级别和属性级别的注释,该数据集不仅提供了全面的视觉信息,还增强了模型的细粒度理解能力。此外,HERM-100K的注释由GPT-4V生成,确保了高质量和高一致性。这些特点使得HERM-100K成为评估和提升MLLMs在复杂人类中心场景理解能力的重要资源。
使用方法
HERM-100K数据集的使用方法主要包括两个方面:一是用于多任务预训练阶段,通过构建320,000个图像/区域-文本对,增强模型的多任务处理能力;二是用于指令微调阶段,通过提示GPT-4生成29,000个指令跟随对,提升模型的指令理解和执行能力。此外,HERM-100K还可以用于构建HERM-Bench基准测试,通过多维度的评估问题,全面检验MLLMs在人类中心理解任务上的表现。
背景与挑战
背景概述
HERM-100K数据集由中科院计算技术研究所的研究团队开发,旨在提升多模态大语言模型(MLLMs)在以人为中心的理解能力。该数据集创建于2024年,主要研究人员包括Keliang Li、Zaifei Yang等。HERM-100K的核心研究问题是如何通过多层次的人类中心注释来增强MLLMs的训练,以解决现有图像-文本数据在精确模态对齐和多粒度信息整合方面的不足。该数据集的推出对推动MLLMs在复杂人类中心场景中的应用具有重要影响力。
当前挑战
HERM-100K数据集面临的挑战主要包括两个方面:一是解决现有MLLMs在理解复杂人类中心场景中的局限性,特别是在精确模态对齐和多粒度信息整合方面的不足;二是在构建过程中遇到的挑战,如如何生成高质量的多层次人类中心注释,以及如何确保这些注释能够有效地增强MLLMs的训练。此外,数据集的构建还需要克服现有图像-文本数据在描述人类细节方面的不足,以提升MLLMs在人类中心视觉理解任务中的表现。
常用场景
经典使用场景
HERM-100K 数据集在多模态大语言模型(MLLMs)的人类中心理解能力评估中发挥了关键作用。该数据集通过提供多层次的人类中心注释,增强了 MLLMs 在复杂人类中心场景中的训练。其经典使用场景包括评估 MLLMs 在基本感知和复杂理解任务中的表现,如个体外观识别、姿态识别、人与物体互动分析以及多人物关系理解等。
衍生相关工作
HERM-100K 数据集的引入催生了一系列相关经典工作,特别是在多模态大语言模型(MLLMs)和人类中心理解领域的研究。例如,基于 HERM-100K 的 HERM-7B 模型展示了在人类中心基本感知和复杂理解任务中的优越性能,推动了 MLLMs 在人类中心任务中的应用研究。此外,该数据集还激发了对多模态数据质量和预训练数据集质量的研究,如 LLaVA 和 InstructBLIP 等模型的工作,进一步提升了多模态理解能力。
数据集最近研究
最新研究方向
在多模态大语言模型(MLLMs)领域,HERM-100K数据集的最新研究方向聚焦于提升模型在以人为中心的理解能力。随着视觉理解和指令跟随技术的显著进步,MLLMs在多样化和普遍的人类中心场景中展现出更广泛的应用潜力。然而,现有的图像-文本数据可能无法支持精确的模态对齐和多粒度信息的整合,这对于人类中心的视觉理解至关重要。为此,研究者们引入了HERM-100K,这是一个包含多层次人类中心注释的综合数据集,旨在增强MLLMs的训练。通过开发HERM-7B模型并在HERM-Bench上进行评估,研究结果表明,HERM-7B在各种人类中心维度上显著优于现有的MLLMs,反映了当前用于MLLM训练的数据注释在人类中心视觉理解方面的不足。这一研究强调了专门数据集和基准在推进MLLMs人类中心理解能力方面的重要性。
相关研究论文
  • 1
    HERM: Benchmarking and Enhancing Multimodal LLMs for Human-Centric Understanding中国科学院计算技术研究所 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作