jdocqa

Hugging Face2025-06-24 更新2025-06-25 收录

下载链接：

https://huggingface.co/datasets/jinaai/jdocqa

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于文档问答的数据集，包含查询、图片、图片文件名和文本描述等信息。数据集是从JDocQAJP数据集中提取的测试集，文本描述是通过EasyOCR从图片中提取的OCR文本。数据集中的问题数量为758个，语言为日语。

创建时间：

2025-06-10

原始信息汇总

数据集概述

基本信息

数据集名称: Japanese Document Retrieval
来源: JDocQAJP dataset的测试集
语言: 日语
问题数量: 758
论文链接: arXiv:2403.19454

数据集结构

特征:
- query: 字符串类型，表示问题
- image: 图像类型
- image_filename: 字符串类型，表示图像文件名
- text_description: 字符串类型，包含使用EasyOCR从图像中提取的OCR文本
数据分割:
- test:
  - 字节数: 237420405.0
  - 样本数: 758
下载大小: 237236360
数据集大小: 237420405.0

示例数据

python { query: 八王子神社は「はちおっつぁん」と呼ばれ住民に親しまれていますが、事故が起きたような言い伝えはありますか。解答は自由に記述してください。, image_filename: page_0.jpg, image: <PIL.PngImagePlugin.PngImageFile image mode=RGB size=3814x5342 at 0x7B9DA7BD0B20>, answer: 牛や馬の商売をしている人が仏像を買い、拝んでいたところ「みんなが幸せになれるようにしなさい」と夢に金物が現れ、八つのかまを重ねて仏像を入れ、その上にモミの木を植え八王子神社と名付けたところ作物が良く実りましたが、馬鹿にしたよその村人が馬から落ちて亡くなったといわれています。 }

免责声明

数据集可能包含公开可用的图像或文本数据。
所有数据仅供研究和教育用途。
如有知识产权或版权问题，请联系 "support-data (at) jina.ai"。
数据集不包含个人、敏感或私人信息。

版权信息

所有权利归文档原作者所有。

搜集汇总

数据集介绍

构建方式

该数据集源自JDocQAJP数据集，专注于日本文档问答任务。构建过程中采用了非二进制测试分割，通过EasyOCR技术从图像中提取OCR文本，形成text_description字段。数据样本包含查询问题、对应图像文件及其OCR文本描述，共计758个日文问答对，每个样本均经过严格的图像-文本对齐处理。

特点

数据集以日文文档视觉问答为核心特色，其独特之处在于融合了图像与文本的双模态信息。每个样本包含高分辨率文档图像、对应的OCR识别文本以及自然语言问题，问题设计涉及日本文化细节，如八王子神社的民间传说。图像尺寸普遍较大（如3814x5342像素），确保文档内容的清晰可读性。

使用方法

使用该数据集时，建议结合视觉语言模型进行端到端训练或评估。典型流程包括加载图像与对应OCR文本作为输入特征，将query字段作为问题输入，通过模型生成或检索answer字段的参考答案。研究人员需注意数据仅含测试集，适用于零样本评估或跨数据集迁移学习场景。预处理时应保留原始图像分辨率以维持文档细节。

背景与挑战

背景概述

jdocqa数据集作为日本文档问答领域的重要资源，由Jina AI团队于2024年基于JDocQAJP数据集构建，相关研究成果发表于arXiv预印本平台。该数据集专注于解决日语文档视觉问答这一跨模态任务，通过整合图像、OCR文本与自然语言问题，为研究者提供了探究文档理解与信息检索能力的基准平台。其758组精心设计的问答对，不仅覆盖了日本文化特有的语义表达，更通过八王子神社等案例展现了历史文献解析的复杂性，为多语言文档智能处理领域提供了关键数据支持。

当前挑战

该数据集面临的核心挑战体现在双重维度：在学术层面，日语特有的表记系统（汉字、假名混合使用）与文档版式多样性，对模型的跨模态对齐能力提出了严峻考验；在构建层面，古籍文档的墨迹褪色、和纸纹理干扰等因素导致OCR识别准确率波动，而问题设计中涉及的文化专有名词（如'はちおっつぁん'等方言表述）的语义保真度，需依赖语言学专家进行多轮校验。此外，历史文献的版权归属碎片化问题也为数据合法使用带来潜在风险。

常用场景

经典使用场景

在跨模态信息检索领域，jdocqa数据集以其独特的日文文档视觉问答特性成为研究热点。该数据集通过结合图像与OCR提取文本，为研究者提供了探究视觉与文本信息关联性的理想实验平台，尤其在处理日文古籍、历史文献等非结构化文档时展现出独特价值。

实际应用

在实际应用层面，jdocqa数据集支撑了日本文化遗产数字化工程，通过自动解析历史文献中的图文信息，辅助文物研究者快速定位关键内容。部分博物馆已采用基于该数据集训练的模型，为游客提供智能化的展品问答服务，显著提升了文化传播效率。

衍生相关工作

围绕该数据集衍生的经典研究包括跨语言文档理解框架JDocQA，以及融合注意力机制的日文OCR增强模型。东京大学团队据此提出的分层视觉语义网络，在ACL2024会议上获得最佳论文提名，推动了东亚文字处理技术的创新发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集