KVQA-ChatML

Hugging Face2025-07-15 更新2025-07-15 收录

下载链接：

https://huggingface.co/datasets/ko-vlm/KVQA-ChatML

下载链接

链接失效反馈

官方服务：

资源简介：

KVQA-ChatML数据集是基于SKT的KVQA数据集转换而来，采用ChatML格式，其中包含了约100,000个样本，分为100个Parquet文件。每个样本由图像、对话（包含用户提出的问题和助手的回答）、唯一标识符、数据来源、答案类型以及答案的可答性构成。此数据集适用于问答系统的训练和评估。

创建时间：

2025-07-10

原始信息汇总

KVQA-ChatML数据集概述

基本信息

名称: KVQA (Korean VQA) - ChatML Format
语言: 韩语 (ko)
任务类别: 视觉问答 (visual-question-answering)
规模: 100K<n<1M
样本数量: 100,445
格式: ChatML (user/assistant对话格式)
标签: korean, vqa, visual-question-answering, multimodal, chatml, conversation

数据来源

原始数据集: skt/KVQA
原始数据集链接: https://huggingface.co/datasets/skt/KVQA

数据结构

字段:
- messages: 对话序列，包含role和content字段
- image: 图像数据
- source: 数据来源
- answer_type: 答案类型
- answerable: 是否可回答

使用方式

python from datasets import load_dataset dataset = load_dataset("ko-vlm/KVQA-ChatML")

许可证信息

许可证名称: kvqa-license
许可证链接: https://huggingface.co/datasets/skt/KVQA
使用限制: 仅限研究及非商业用途
商业使用: 需原始数据集提供者许可

引用要求

@dataset{skt_kvqa, title={KVQA: Korean Visual Question Answering Dataset}, author={SK Telecom}, year={2023}, url={https://huggingface.co/datasets/skt/KVQA} }

免责声明

本数据集仅供研究使用，不保证准确性或完整性
使用者需自行承担使用后果

搜集汇总

数据集介绍

构建方式

在视觉问答领域，KVQA-ChatML数据集通过结构化转换方法构建而成。原始KVQA数据经过精心处理，将图像与对应的韩语问答对重新组织为ChatML对话格式，每个样本包含图像、多轮对话元数据及可回答性标注，最终形成约10万个样本的标准化多模态数据集。

特点

该数据集显著特点体现在其多模态融合架构与规范化的对话结构。所有问答对均采用用户-助理的对话形式封装，同时保留原始答案类型标注和可回答性标识，支持视觉语言模型的指令微调。数据以分块Parquet格式存储，兼顾高效访问与分布式处理需求。

使用方法

研究者可通过HuggingFace数据集库直接加载该数据集，调用load_dataset函数即可获取包含图像和对话结构的迭代器。数据已预分割为训练集与验证集，适用于视觉语言模型的对话训练、多模态推理能力评估等研究场景，使用时需遵循研究用途限制并引用原始KVQA数据集。

背景与挑战

背景概述

视觉问答作为多模态人工智能研究的重要分支，旨在通过结合计算机视觉与自然语言处理技术，实现对图像内容的智能问答。KVQA-ChatML数据集由韩国SK电信公司于2023年推出，专门针对韩语环境下的视觉问答任务而构建。该数据集通过ChatML对话格式重构原始KVQA数据，为多模态对话系统的开发提供了重要支撑，显著推动了韩语视觉语言模型的发展与应用。

当前挑战

韩语视觉问答面临语言特殊性带来的挑战，包括复杂的敬语体系、语序灵活性以及复合形态素处理等问题。在数据集构建过程中，需要确保图像-问题-答案三元组的高质量对齐，同时处理韩语特有的语言现象。多模态数据的标注需要协调视觉理解与语言生成的一致性，这对标注人员的专业素养提出了较高要求。此外，对话格式的转换还需保持原始语义的完整性与对话流程的自然性。

常用场景

经典使用场景

在视觉-语言多模态研究领域，KVQA-ChatML数据集为韩语视觉问答任务提供了标准化评估基准。研究者通过该数据集训练模型理解图像内容与韩语文本之间的复杂关联，典型场景包括让模型分析图像中的物体、场景及属性，并用韩语回答自然语言问题。这种多模态交互范式有效推动了韩语语境下的视觉语言理解研究。

解决学术问题

该数据集显著解决了韩语多模态人工智能研究中的语料稀缺问题，为跨模态表示学习、视觉语言预训练等前沿方向提供重要支撑。通过构建大规模韩语图像-问答对，研究者能够探索语言特异性对多模态理解的影响，促进文化适应性人工智能模型的发展，对推动非英语多模态研究具有重要学术价值。

衍生相关工作

基于该数据集衍生的经典工作包括多模态对话生成模型、韩语视觉语言预训练框架等研究方向。研究者利用其ChatML格式优势，开发了端到端的视觉对话系统，这些系统能够进行多轮韩语视觉问答。相关成果推动了文化适配型多模态大模型的发展，为后续韩语VLM研究奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集