Japanese-Medical-VQA-12m

Hugging Face2026-03-09 更新2026-03-10 收录

下载链接：

https://huggingface.co/datasets/MIL-UT/Japanese-Medical-VQA-12m

下载链接

链接失效反馈

官方服务：

资源简介：

Japanese Medical VQA 12M 是一个大规模日语医学多模态数据集，基于 Open-PMC-18M 构建并以 Parquet 格式发布。该数据集包含多个数据构建阶段的输出，包括原始标题、日语翻译的原始标题、增强标题、日语翻译的增强标题以及问答对。数据集包含 12,125,556 个样本，每个样本包含以下字段：样本标识符（id）、图像（image）、原始标题（original_caption）、日语原始标题（original_caption_ja）、增强标题（enriched_caption）、日语增强标题（enriched_caption_ja）、问题（question）和答案（answer）。数据集适用于图像到文本和问答等任务，特别适合医学领域的视觉语言和多模态研究。数据集中部分字段存在缺失值，生成失败的部分被替换为空字符串。

创建时间：

2026-03-09

原始信息汇总

Japanese Medical VQA 12M 数据集概述

基本信息

数据集名称: Japanese Medical VQA 12M
语言: 日语、英语
许可证: CC BY-SA 4.0
标签: 医学、图像-文本、多模态、日语、视觉-语言、字幕生成、视觉问答、推理
任务类别: 图像到文本、问答
规模类别: 10M < n < 100M
数据格式: Parquet
样本总数: 12,125,556

数据来源与构建

基础数据源: 基于 Open-PMC-18M 构建。
构建过程: 包含多个数据构建阶段的输出。
数据筛选: 仅包含商业可用的样本，从原始 17,867,999 个样本中移除了 5,742,443 个非商业或排除的样本。

数据结构与内容

数据列说明

每个数据行包含以下列：

id: 样本标识符。
image: 图像列。
original_caption: 源语言中的原始字幕。
original_caption_ja: 原始字幕的日语翻译。
enriched_caption: 源语言中的重新字幕化/增强字幕。
enriched_caption_ja: 增强字幕的日语翻译。
question: 生成的问题或指令。
answer: 生成的目标答案。

构建模型与方法

步骤	输入	输出	模型/方法
字幕增强	图像 + 源字幕	增强字幕	InternVL3.5 38B
字幕翻译	源/增强字幕	日语字幕	Qwen3-30B-A3B
VQA生成	源/增强字幕	问答对	GPT-oss 120B

缺失值统计

在自动数据构建过程中，生成失败的值被替换为空字符串 ("")。各列缺失/空样本数如下：

original_caption_ja: 2,674
enriched_caption: 0
enriched_caption_ja: 2,909
question: 1,668
answer: 1,668

数据访问与使用

加载方式

可通过 Hugging Face datasets 库加载： python from datasets import load_dataset dataset = load_dataset( "MIL-UT/Japanese-Medical-VQA-12m", "data", split="train", streaming=True, )

文件结构

数据集以 Parquet 格式存储，结构如下：

. ├── README.md └── data/ ├── train-00000-of-XXXXX.parquet ├── train-00001-of-XXXXX.parquet └── ...

维护信息

联系邮箱: ando [at] mi.t.u-tokyo.ac.jp

搜集汇总

数据集介绍

构建方式

在医学影像与自然语言处理交叉领域，Japanese-Medical-VQA-12m数据集通过多阶段自动化流程构建而成。其源数据取自Open-PMC-18M，经过商业用途筛选后保留约1212万条样本。构建过程涵盖原始描述提取、描述增强、日语翻译以及视觉问答生成等关键环节，其中描述增强借助InternVL3.5 38B模型实现，翻译任务由Qwen3-30B-A3B完成，而问答对则通过GPT-oss 120B模型生成，形成结构化的多模态医学数据。

特点

该数据集以大规模日语医学多模态资源为特色，囊括图像、文本描述及问答对等多种数据类型。每条样本均包含原始描述及其日语译文、增强描述及其译文、以及自动生成的问答对，构成层次丰富的语义表示。数据格式采用高效的Parquet存储，支持流式加载，便于大规模分布式处理。尽管在自动生成过程中存在少量字段缺失，但整体数据质量经过严格筛选，专注于商业可用场景，为日语医学视觉语言理解研究提供了坚实支撑。

使用方法

研究者可通过HuggingFace数据集库直接加载该资源，利用streaming模式实现流式读取以应对海量数据。典型应用包括医学视觉问答模型训练、跨语言医学描述生成、以及多模态表示学习等任务。数据集中各字段如图像、描述文本及问答对可直接用于端到端模型输入，亦可根据需要单独抽取特定语言或增强后的描述进行针对性实验。该数据集为推进日语医学人工智能应用提供了标准化、可扩展的数据基础。

背景与挑战

背景概述

在医学人工智能领域，多模态学习正逐渐成为推动精准医疗发展的核心动力。Japanese-Medical-VQA-12m数据集由MIL-UT团队于近期构建并发布，其基础源自Open-PMC-18M的大规模医学文献图像资源。该数据集旨在应对日语环境下医学视觉问答任务的独特需求，通过整合图像与文本信息，为模型提供丰富的医学知识理解与推理能力。其构建过程涉及多阶段自动化处理，包括图像描述增强、日语翻译以及问答对生成，显著提升了数据集的多样性与实用性。这一资源的出现，不仅填补了日语医学多模态数据的空白，也为跨语言医学人工智能研究提供了重要的基准与支撑。

当前挑战

该数据集致力于解决医学视觉问答领域的核心挑战，即如何让模型准确理解复杂的医学图像并回答专业性问题，这要求模型具备跨模态对齐与深度推理能力。在构建过程中，团队面临多重技术难题：首先，从原始Open-PMC-18M数据中筛选出符合商业使用许可的样本，导致超过五百万条数据被剔除，影响了数据规模的完整性。其次，多阶段自动化生成流程中，日语翻译、描述增强及问答对生成等环节均可能出现失败，尽管缺失值比例较低，但仍对数据质量构成潜在风险。此外，确保生成内容的医学准确性与语言自然度，亦是自动化流程中需要持续优化的关键问题。

常用场景

经典使用场景

在医学多模态学习领域，Japanese-Medical-VQA-12m数据集为视觉问答任务提供了丰富的资源。该数据集通过结合医学图像与日文文本描述，支持模型进行跨模态推理，典型应用包括训练模型根据医学影像生成诊断相关问题并给出准确回答。其大规模特性使得研究者能够构建具备深度理解能力的视觉语言模型，推动医学人工智能从单纯图像识别向语义解释的演进。

解决学术问题

该数据集有效应对了医学多模态研究中数据稀缺与语言壁垒的挑战。通过提供大规模日文医学视觉问答对，它促进了跨语言医学知识迁移，并解决了传统医学数据集标注成本高昂的问题。其自动生成的数据构建流程为学术探索提供了可扩展的范例，显著提升了模型在复杂医学场景下的推理与解释能力，为精准医疗辅助系统奠定了数据基础。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在多模态医学模型预训练与微调框架上。例如，基于其构建的视觉语言模型被应用于医学报告自动生成、跨语言医学知识对齐等任务。这些工作不仅拓展了数据集的适用边界，还推动了医学人工智能在临床决策支持、远程医疗等场景中的技术落地与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集