JDocQA

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/shunk031/huggingface-datasets_JDocQA

下载链接

链接失效反馈

官方服务：

资源简介：

JDocQA是一个大规模的文档基础问答数据集，主要使用视觉和文本信息来回答问题，包含5,504个PDF格式的文档和11,600个日语的问题-答案实例。

JDocQA is a large-scale document-based question-answering dataset that primarily utilizes visual and textual information to answer questions. It includes 5,504 documents in PDF format and 11,600 question-answer instances in Japanese.

创建时间：

2024-05-16

原始信息汇总

数据集概述

数据集基本信息

名称: JDocQA
语言: 日语（ja-JP）
多语言性: 单语种
数据集大小: 1K<n<10K
许可: CC-BY-SA-4.0
数据来源: 原始数据
任务类别: 问答（question-answering）
任务ID:
- extractive-qa
- open-domain-qa
- closed-domain-qa

数据集描述

数据集摘要

JDocQA是一个大规模的基于文档的日语问答数据集，包含5,504个PDF格式的文档和11,600个标注的问答实例。该数据集要求结合视觉和文本信息来回答问题。

支持的任务和排行榜

JDocQA支持生成式问答任务，包括四种问题类型：

是/否问题：答案为“是”或“否”。
事实问题：答案为文档中出现的事实，如命名实体。
数值问题：答案为数值，可能包含单位或日本数字。
开放式问题：需要自由形式的回答，评估基于提供上下文和问题的复杂理解能力。

语言

数据集中的语言为日语。

数据集结构

数据实例

数据集包含训练、验证和测试集，分别有9,290、1,134和1,176个问答实例。每个实例包括多个字段，如答案、答案类型、上下文、问题等。

数据字段

answer: 答案
answer_type: 答案类型（是/否、事实、数值、开放式）
context: 上下文信息
original_question: 原始问题
pdf_category: 文档类别
pdf_name: PDF文件名
question: 问题查询
type_of_image: 图像类型（如表格、图表等）

数据分割

数据集被分割为训练、验证和测试集，确保同一PDF文件始终出现在同一分割中。

数据集创建

数据收集和规范化

数据集从日本国家图书馆的数字收藏、网络存档项目和日本政府部门网站等公开资源手动收集PDF文档。文档类型包括报告、手册或网站，由公共或准公共部门发布。

标注过程

数据集由43名标注者进行问答对标注。每个文档要求标注者编写两到四个问答对，不使用任何AI工具。问题根据文档中的文本和视觉信息生成。

使用数据的考虑

社会影响

数据集预计对生成语言模型及其在日语文档问答中的应用研究和开发有用。

偏见讨论

数据集避免使用私人文档，选择由公共或准公共部门发布的公开文档，遵循机构规则和外部顾问的建议进行数据收集。

其他已知限制

数据集包含不可回答的问题，有助于解决大型语言模型的幻觉问题，但并不保证完全消除幻觉。

搜集汇总

数据集介绍

构建方式

JDocQA数据集的构建基于大规模的日本文档，涵盖了从公开资源中收集的5,504份PDF格式文档。这些文档包括报告、小册子、网站内容等多种形式，涉及经济政策、教育政策、劳动问题等多个领域。数据集的构建过程中，首先通过PyPDF2工具从PDF文档中提取文本，对于无法提取文本的扫描文档，则采用OCR技术进行文本识别。随后，通过众包方式，由43名标注者对这些文档进行问题和答案的标注，确保每个文档包含2至4个问题答案对。标注过程中，特别关注了文本和视觉信息的结合，以及多页问题和不可回答问题的标注，以增强数据集的多样性和挑战性。

使用方法

JDocQA数据集适用于开发和评估日本文档问答系统，特别是那些需要结合文本和视觉信息进行推理的模型。使用者可以通过Hugging Face Datasets库加载数据集，并根据需要进行数据预处理和模型训练。数据集提供了详细的字段信息，包括问题、答案、上下文、文档类别等，便于用户进行深入分析和模型优化。此外，数据集的标注信息和文档路径也提供了丰富的元数据，支持多模态模型的研究和应用。

背景与挑战

背景概述

JDocQA数据集由日本的研究人员和机构创建，旨在解决大规模日语文档问答问题。该数据集包含了5,504个PDF格式的文档和11,600个日语标注的问答实例，涵盖了从视觉和文本信息中提取答案的需求。JDocQA的创建旨在满足对大规模、完全标注的日语文档问答数据集的需求，通过收集公开的日语文档，包括幻灯片、报告、网站和宣传册等多种格式，并手动标注问答对。这一数据集的推出，对推动日语自然语言处理领域的发展具有重要意义。

当前挑战

JDocQA数据集在构建过程中面临多项挑战。首先，数据集需要处理包含丰富文本和视觉元素的文档，如表格、图表、地图和混合书写风格的文本，这增加了标注的复杂性。其次，数据集中的问答对涉及多种类型的问题，包括是非题、事实题、数值题和开放式问题，这要求模型具备多样的理解和生成能力。此外，数据集中还包含无法回答的问题，这有助于模型识别和避免幻觉问题。最后，数据集的构建需要从公开资源中手动收集和处理PDF文档，并通过OCR技术提取文本，这一过程涉及大量的数据清洗和规范化工作。

常用场景

经典使用场景

JDocQA数据集的经典使用场景主要集中在日本文档的问答系统开发上。该数据集包含了5,504个PDF格式的文档和11,600个经过标注的日语问答实例，涵盖了从事实性问题到开放性问题的多种类型。通过利用这些丰富的文本和视觉信息，研究者和开发者可以训练和评估模型在处理复杂文档时的问答能力，特别是在需要结合文本和图像信息来回答问题的场景中。

解决学术问题

JDocQA数据集解决了在日语文档问答领域中缺乏大规模、高质量标注数据的问题。它为学术界提供了一个宝贵的资源，使得研究人员能够开发和验证新的问答模型，特别是在多模态信息处理方面。此外，该数据集还引入了不可回答的问题，这有助于研究模型在面对无法回答的问题时的表现，从而推动了问答系统在实际应用中的鲁棒性和可靠性研究。

实际应用

在实际应用中，JDocQA数据集可以用于构建和优化面向日本市场的文档问答系统。例如，它可以应用于政府文档的自动问答服务，帮助公众快速获取所需信息；也可以用于企业内部的文档管理系统，提升员工查询和理解复杂文档的效率。此外，该数据集还可以支持法律、医疗等领域的专业文档问答系统，提供更为精准和高效的信息检索服务。

数据集最近研究