KORE-74K

github2025-10-31 更新2025-11-01 收录

下载链接：

https://github.com/KORE-LMM/KORE

下载链接

链接失效反馈

官方服务：

资源简介：

KORE-74K数据集是通过知识导向增强的自动化流程构建的，将知识转换为深度结构化格式。它通过生成多轮对话数据（主干）和指令任务数据（分支，如VQA和图像描述）来构建全面的知识结构，使模型能够实现精确适应和真正的知识内化，而不仅仅是数据记忆。数据集文件包括JSON/JSONL格式的训练数据和图像文件，图像部分分为识别、描述和VQA任务的压缩文件。

The KORE-74K dataset is constructed via a knowledge-guided enhanced automated pipeline, which converts knowledge into deeply structured formats. It builds a comprehensive knowledge structure by generating multi-turn dialogue data (as the backbone) and instruction task data (as branches, such as VQA and image captioning), enabling models to achieve precise adaptation and genuine knowledge internalization rather than mere data memorization. The dataset files include training data in JSON/JSONL formats and image files, with the image section divided into compressed packages for recognition, captioning and VQA tasks.

创建时间：

2025-10-23

原始信息汇总

KORE数据集概述

数据集基本信息

数据集名称: KORE-74K
核心目标: 通过知识导向的增强和约束来增强大型多模态模型的知识注入能力
主要贡献: 解决知识适应与保留之间的平衡挑战

数据集构成

数据规模: 74K训练数据
数据结构:
- 多轮对话数据（主干）
- 指令任务数据（分支），包括VQA和图像描述
数据特点: 构建全面的知识结构，实现准确适应和真正的"知识内化"

文件结构

获取方式

下载地址: https://huggingface.co/datasets/kailinjiang/KORE-74K

评估基准

知识适应评估: EVOKE
知识保留评估:
- MME
- MMBench
- POPE
- ScienceQA
- 其他基于VLMEvalKit的基准

相关资源

论文: https://arxiv.org/abs/2510.19316
模型: https://huggingface.co/collections/kailinjiang/kore-68c54e73b6a19eece0fff381
代码: https://github.com/KORE-LMM/KORE
网站: https://kore-lmm.github.io/

搜集汇总

数据集介绍

构建方式

在知识增强型多模态模型研究领域，KORE-74K数据集通过自动化知识转换流程构建而成。该流程将原始知识转化为结构化多轮对话数据与多样化指令任务数据，形成包含视觉问答和图像描述等分支的知识体系。这种构建方式突破了传统离散数据增强的局限，实现了从表层记忆到深层知识内化的转变，为模型提供了连贯的知识学习框架。

特点

该数据集以知识导向为核心特征，其74K规模的数据条目呈现出系统化的知识结构。通过多轮对话主干与指令任务分支的有机结合，构建起立体化的知识表征体系。相较于传统数据集，其独特价值在于实现了知识适应性与保留性的平衡，既支持模型对新知识的快速吸收，又保障了已有知识的稳定性。

使用方法

基于LLaVA训练框架，使用者可通过三步流程实现数据集的完整应用。首先执行协方差矩阵提取与权重重构的预处理，随后利用指定脚本进行模型训练并支持参数调优，最终通过模型合并完成知识注入。该数据集兼容多类评估基准，包括EVOKE知识适应性与MME等知识保留性测试，为模型性能提供全面验证。

背景与挑战

背景概述

在大型多模态模型迅猛发展的背景下，知识注入与模型性能保持之间的平衡成为关键科学难题。KORE-74K数据集由研究团队于2025年提出，旨在通过知识导向的数据增强与约束机制，突破传统数据增强方法的局限性。该数据集构建了包含多轮对话与指令任务的层次化知识结构，推动模型实现从数据记忆到知识内化的本质飞跃，为多模态认知计算领域提供了新的范式。

当前挑战

该数据集致力于解决多模态知识适应中的核心挑战：传统数据增强方法生成的离散样本难以形成连贯知识体系，导致模型泛化能力受限。在构建过程中面临双重挑战：其一是需要设计自动化流程将知识转化为结构化表示，其二是需协调视觉问答与图像描述等异构任务的语义一致性，这对数据标注质量与算法架构提出了极高要求。

常用场景

衍生相关工作

KORE-74K数据集的发布催生了一系列相关研究工作的发展。在评估框架方面，衍生出针对知识适应能力的EVOKE评测基准和面向知识保持能力的MME、MMBench等多维度评测体系。在方法层面，该数据集为LoRA-Null等约束微调技术提供了验证平台，同时也推动了CorDA等持续学习方法在多模态领域的创新应用。

数据集最近研究