five

Jagle

收藏
arXiv2026-04-02 更新2026-04-04 收录
下载链接:
https://speed1313.github.io/Jagle/
下载链接
链接失效反馈
官方服务:
资源简介:
Jagle是目前规模最大的日语多模态后训练数据集,由日本国立情报学研究所等机构联合构建,包含约920万条实例,涵盖通用视觉问答、图表理解、图像描述与知识、OCR问答及基础OCR五大任务类别。该数据集创新性地整合了维基百科图像、政府PDF文档等异构数据源,并通过VLM生成、跨语言翻译等四类策略构建问答对。其数据量达到35亿答案token,在保持日语任务性能的同时不会影响英语模型表现,为低资源语言的多模态模型训练提供了重要基准。

Jagle is currently the largest Japanese multimodal post-training dataset, co-developed by the National Institute of Informatics (NII) of Japan and other institutions. It contains approximately 9.2 million instances, covering five task categories: general visual question answering, chart understanding, image captioning and knowledge grounding, OCR-based visual question answering, and basic OCR. This dataset innovatively integrates heterogeneous data sources including Wikipedia images, government PDF documents and more, and constructs question-answer pairs via four strategies such as vision-language model (VLM) generation and cross-lingual translation. It totals 3.5 billion answer tokens, maintains performance on Japanese multimodal tasks without compromising English model performance, and serves as a critical benchmark for multimodal model training in low-resource languages.
提供机构:
京都大学; 日本国立情报学研究所·LLMC; 早稻田大学; 东京科学大学; 日本国立情报学研究所; 爱知工业大学; 理化学研究所
创建时间:
2026-04-02
原始信息汇总

Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models

数据集概述

Jagle 是迄今为止最大的日语多模态后训练数据集,包含约 920 万个实例,涵盖多样化任务。

核心信息

  • 作者与机构:Issa Sugiura(京都大学、NII LLMC)、Keito Sasagawa(早稻田大学、NII LLMC)、Keisuke Nakao(早稻田大学、NII LLMC)、Koki Maeda(东京科学大学、NII LLMC)、Ziqi Yin(NII LLMC)、Zhishen Yang(NII LLMC)、Shuhei Kurita(NII、NII LLMC)、Yusuke Oda(NII LLMC)、Ryoko Tokuhisa(爱知工业大学、物理化学研究所)、Daisuke Kawahara(早稻田大学、NII LLMC)、Naoaki Okazaki(东京科学大学、NII LLMC)。
  • 数据来源:收集了异构的源数据,包括图像、图像-文本对和 PDF 文档。
  • 生成策略:通过多种策略生成视觉问答(VQA)对,包括基于 VLM 的问答生成、翻译、基于 OCR 的文本提取、文本渲染以及直接利用现有数据。
  • 实验成果:使用 Jagle 训练的 22 亿参数模型在日语任务上表现强劲,在十项日语评估任务的平均得分上超越了 InternVL3.5-2B,并接近 Qwen3-VL-2B-Instruct(差距在五分以内)。此外,将 Jagle 与 FineVision 结合使用不会降低英语性能,反而比单独使用 FineVision 训练提高了英语性能。
  • 数据发布:已公开发布数据集、训练模型和代码。

数据集特点

  • 规模:约 920 万个实例。
  • 内容多样性:涵盖广泛的视觉内容,包括自然图像、图表和表格、文档图像以及演示文稿幻灯片。
  • 构建目的:旨在解决其他语言(尤其是日语)中 VQA 数据集在规模和领域覆盖上的局限性,为构建高质量的多语言和非英语 VLM 提供支持。

相关链接

  • arXiv:https://speed1313.github.io/Jagle/
  • 🤗 Hugging Face:https://speed1313.github.io/Jagle/
  • 代码:https://speed1313.github.io/Jagle/
  • 博客:https://speed1313.github.io/Jagle/
搜集汇总
数据集介绍
main_image_url
构建方式
在日语多模态训练资源相对匮乏的背景下,Jagle数据集摒弃了依赖现有视觉问答数据集进行聚合的传统路径,转而采用一种创新的自底向上构建范式。该范式首先明确定义了通用视觉问答、图表与表格、描述与知识、光学字符识别问答以及基础光学字符识别五大任务类别,随后从异构数据源中广泛收集原始素材,包括网络图像-文本对、维基百科条目、PDF文档及政府公开文件等。通过融合视觉语言模型驱动的问答生成、高质量翻译、文本渲染与光学字符识别文本提取四种策略,系统性地生成了约920万条高质量日语多模态训练实例,有效突破了低资源语言场景下大规模数据构建的瓶颈。
特点
作为迄今规模最大的日语多模态后训练数据集,Jagle以其卓越的规模与多样性著称。数据集囊括约920万个实例,覆盖5个核心任务类别和17个子集,在样本数量上显著超越了此前的日语同类资源。其视觉内容极具广度,不仅包含丰富的自然场景图像,还深入涵盖了图表、表格、文档图像及演示文稿等多种视觉形态。尤为突出的是,数据集通过精心设计的生成策略确保了问答对的语言自然性与任务相关性,同时借助严格的去重与质量控制流程,保障了数据的独特性和可靠性。这种在规模、任务覆盖和视觉多样性上的综合优势,为训练具备广泛泛化能力的日语视觉语言模型奠定了坚实基础。
使用方法
Jagle数据集主要用于视觉语言模型的多模态后训练阶段,旨在提升模型对日语视觉内容的理解和对话能力。研究人员可将该数据集以标准的多轮对话格式直接输入模型进行端到端训练。实践表明,仅使用Jagle对约22亿参数的模型进行训练,即可在多项日语评测基准上取得优异性能,甚至超越部分更大规模的基线模型。此外,Jagle展现出良好的兼容性与增益效应,当与英文大型数据集(如FineVision)混合使用时,不仅能显著提升模型的日语任务表现,还能对英文任务能力产生正向促进,而非引发多语言诅咒现象。这为构建高性能的多语言视觉语言模型提供了宝贵的数据支撑和混合训练策略参考。
背景与挑战
背景概述
随着视觉语言模型在跨任务泛化能力上的快速发展,构建大规模、高质量的多模态训练数据集成为推动该领域进步的关键。在英语语境下,此类数据集通常通过聚合和整理大量现有的视觉问答资源来构建。然而,对于日语等非英语语言,现有的视觉问答数据集在规模和领域覆盖上均存在显著不足,这严重制约了高质量多语言及非英语视觉语言模型的开发。为应对这一挑战,由京都大学、国立情报学研究所LLMC、早稻田大学、东京科学大学等机构的研究人员于2026年联合构建了Jagle数据集。作为迄今为止规模最大的日语多模态后训练数据集,Jagle旨在通过创新的数据构建流程,为日语视觉语言模型提供涵盖广泛任务的大规模训练资源,从而弥合非英语语言在该研究领域的资源鸿沟。
当前挑战
Jagle数据集致力于解决日语视觉语言模型训练中面临的核心挑战,即缺乏大规模、多任务覆盖的高质量日语多模态数据。其构建过程克服了多重困难:首先,在资源稀缺的语境下,无法直接沿用英语领域聚合现有数据集的成熟策略,必须探索从零构建的新路径。研究团队通过整合图像、图文对及PDF文档等异构数据源,并综合运用基于视觉语言模型的问答生成、翻译、文本渲染及光学字符识别文本提取等多种策略来生成问答对,这一流程设计复杂且需精心调校以确保数据质量与多样性。其次,在生成过程中需有效应对模型幻觉、问题格式僵化以及图像与文本语言一致性维护等具体技术难题,同时还需通过人工抽样检查与迭代优化来保障最终数据集的可靠性与实用性。
常用场景
经典使用场景
在日语多模态模型训练领域,Jagle数据集作为迄今规模最大的日语视觉语言后训练资源,其经典应用场景聚焦于提升模型对日语视觉内容的理解与生成能力。该数据集通过整合图像、图文对及PDF文档等异构数据源,并运用视觉语言模型生成、翻译与文本渲染等多种策略构建问答对,为研究者提供了涵盖通用视觉问答、图表理解、图像描述、光学字符识别问答及基础OCR五大任务的丰富语料。模型通过在Jagle上进行训练,能够显著增强对日语自然图像、文档图表及文化特定内容的跨模态推理性能,为日语多模态智能的演进奠定了坚实的数据基础。
解决学术问题
Jagle数据集有效应对了非英语语言环境下视觉语言模型训练数据稀缺的核心学术挑战。传统方法依赖聚合现有视觉问答数据集,这在日语等资源相对匮乏的语言中难以实施,导致模型在领域覆盖与任务多样性上存在局限。Jagle通过创新性的数据构建流程,从源头收集多样化的日语视觉与文本材料,并采用多种问答生成技术,成功解决了日语多模态数据规模不足、任务类型单一的关键问题。其意义在于为低资源语言的多模态研究提供了可迁移的范式,突破了依赖英语数据集的传统路径,推动了多语言视觉语言模型的均衡发展。
衍生相关工作
Jagle数据集的发布催生了一系列围绕日语多模态模型评估与优化的经典研究工作。基于Jagle训练的模型在多项日语基准测试中超越了InternVL3.5-2B等现有基线,激发了社区对日语视觉语言模型能力边界的深入探索。其构建方法论为其他低资源语言的多模态数据集创建提供了直接参考,促进了跨语言数据生成策略的比较研究。此外,Jagle与英语数据集FineVision的混合训练实验揭示了多语言数据协同可能带来的性能增益,为缓解多语言诅咒现象提供了实证依据,推动了多语言视觉语言模型训练策略的理论与实证进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作