Japanese PDF Data

Name: Japanese PDF Data
Creator: 东京大学, 国家信息学研究所
Published: 2025-02-21 01:59:59
License: 暂无描述

arXiv2025-02-21 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2502.14778v1

下载链接

链接失效反馈

官方服务：

资源简介：

Japanese PDF Data是一个由东京大学和国立信息学研究所收集的PDF数据集，包含了从网络获取的超过51.38百万个PDF文档的子集。该数据集特别挑选了包含图像的200K个PDF页面，用于提取图像和文本对，以增强大型多模态模型在日语上的性能。数据集涵盖了各种类型的文档，包括学术文章、杂志、报告、海报等，不仅限于科学论文，旨在为日语大型多模态模型训练提供丰富的、具有文化相关性知识的资源。

Japanese PDF Data is a dataset of PDF files collected by the University of Tokyo and the National Institute of Informatics, which includes a subset of over 51.38 million PDF documents sourced from the web. This dataset specifically curates 200,000 image-containing PDF pages, which are utilized to extract image-text pairs with the goal of improving the performance of Japanese large multimodal models. The dataset encompasses diverse document types, such as academic articles, magazines, technical reports, posters and more, without being restricted to scientific papers. It aims to provide rich, culturally relevant knowledge resources for the training of Japanese large multimodal models.

提供机构：

东京大学, 国家信息学研究所

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

Japanese PDF Data数据集的构建方式是通过自动化流程从PDF文件中提取图像-文本对。该流程包括布局分析、光学字符识别（OCR）和视觉语言配对，无需手动注释。此外，还从提取的图像-文本对中构建指令数据，以丰富训练数据。

使用方法

Japanese PDF Data数据集的使用方法包括将其用于训练日本大型多模态模型（LMMs）。该数据集可以用于预训练、指令微调和持续微调阶段。此外，该数据集还可以用于评估日本LMMs的性能，并与现有的日本LMMs进行比较。

背景与挑战

背景概述

当前，大型多模态模型（LMMs）在英语领域表现出色，但在日语领域的应用却受到限制，主要原因是缺乏高质量的训练数据。现有的日语LMMs主要依赖翻译自英语的数据集，这使得它们难以捕捉到日本特有的文化知识。为了解决这个问题，研究人员开始探索利用日语PDF数据作为训练资源，这是一个尚未充分利用的领域。他们引入了一个全自动化的流程，利用预训练模型通过布局分析、OCR和视觉语言配对从PDF中提取图像-文本对，无需手动标注。此外，他们还从提取的图像-文本对中构建指令数据，以丰富训练数据。通过在日语LMM基准上进行训练和评估，结果表明，PDF衍生的数据能够显著提高模型性能，性能提升幅度在3.9%到13.8%之间。这些发现为利用PDF数据改进日语LMMs提供了有价值的见解，并突出了其在多模态资源中的价值。

当前挑战

虽然PDF数据在改善日语LMMs方面显示出巨大潜力，但在构建过程中也面临一些挑战。首先，从PDF中提取高质量的图像-文本对是一个复杂的任务，需要先进的布局分析、OCR和视觉语言配对技术。其次，由于PDF数据通常包含大量文本和图像，因此需要开发有效的数据清洗和过滤机制，以确保训练数据的质量。最后，如何有效地利用PDF数据来训练LMMs，并评估其对模型性能的影响，也需要进一步的研究。

常用场景

经典使用场景

Japanese PDF Data集主要用于提升日本大型多模态模型（LMM）的性能。由于高质量的日语训练数据有限，现有的日语LMM通常依赖于翻译的英语数据集，这限制了它们捕捉日本特定文化知识的能力。为了解决这个问题，我们探索了利用日语PDF数据作为训练资源的潜力，这是一个尚未充分利用的领域。我们引入了一个全自动化的管道，利用预训练模型通过布局分析、OCR和视觉语言配对从PDF中提取图像-文本对，从而无需手动标注。此外，我们从提取的图像-文本对中构建指令数据以丰富训练数据。为了评估PDF衍生数据的有效性，我们训练了日语LMM，并在日语LMM基准上评估了它们的性能。我们的结果表明，性能有了实质性提高，在Heron-Bench上的性能提高了3.9%到13.8%。进一步的分析强调了PDF衍生数据对各种因素的影响，例如模型大小和语言模型，这证明了它作为日语LMM的多模态资源的价值。

解决学术问题

该数据集解决了日语LMM训练数据有限的问题，以及现有的日语LMM依赖于翻译的英语数据集，限制了它们捕捉日本特定文化知识的能力。通过利用日语PDF数据，我们可以将与文化相关的内容融入LMM训练中。与现有的多模态数据集（主要基于网络）相比，PDF包含大量有价值但尚未充分利用的信息，这些信息来自书籍和文档。我们的研究结果表明，PDF衍生数据可以显著提高日语LMM的性能，在Heron-Bench上的性能提高了3.9%到13.8%。这些发现为利用PDF数据改进日语LMM提供了宝贵的见解，并突出了它作为多模态资源的潜力。

实际应用

Japanese PDF Data集的实际应用场景包括：1. 用于训练和改进日语LMM，以更好地理解和处理日语文本和图像信息。2. 用于构建包含日本特定文化知识的LMM，以更好地满足日本用户的需求。3. 用于研究和开发新的LMM，以扩展多模态模型的应用范围。4. 用于评估和比较不同LMM的性能，以促进LMM技术的发展。

数据集最近研究