shunk031/JDocQA

Name: shunk031/JDocQA
Creator: shunk031
Published: 2024-05-21 16:00:57
License: 暂无描述

Hugging Face2024-05-21 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/shunk031/JDocQA

下载链接

链接失效反馈

官方服务：

资源简介：

JDocQA是一个大规模的日语文档问答数据集，包含5504个PDF格式的文档和11600个问答对。数据集支持生成式问答任务，包括是/否问题、事实性问题、数值问题和开放式问题。数据集的注释由43名注释者完成，数据来源于日本政府机构或地方政府的公开文档。数据集的设计旨在评估模型在结合视觉和文本信息的情况下回答问题的能力。

提供机构：

shunk031

原始信息汇总

JDocQA 数据集概述

数据集描述

数据集摘要

JDocQA 是一个大规模的日语文档问答数据集，包含 5,504 个 PDF 格式的文档和 11,600 个日语标注的问答实例。该数据集要求同时使用视觉和文本信息来回答问题。

支持的任务和排行榜

JDocQA 支持以下四种类型的问答任务：

Yes/No 问题：答案为“是”或“否”。
事实性问题：答案为文档中出现的事实，如命名实体。
数值问题：答案为数值，可能包括单位或日本数字。
开放性问题：需要自由形式的回答，评估基于提供上下文和问题的复杂理解能力。

语言

数据集中的语言为日语（BCP-47 ja-JP）。

数据集结构

数据实例

数据集包含以下字段：

answer
answer_type
context
multiple_select_answer
multiple_select_question
no_reason
normalized_answer
original_answer
original_context
original_question
pdf_category
pdf_name
question
question_number
question_page_number
reason_of_answer_bbox
text_from_ocr_pdf
text_from_pdf
type_of_image
pdf_filepath

数据分割

数据集分为训练集、验证集和测试集，分别包含 9,290 件、1,134 件和 1,176 件问答实例。

数据集创建

策划理由

JDocQA 数据集旨在满足对大规模、完全标注的日语文档问答数据集的需求，通过收集日语 PDF 格式的文档并手动标注问答对来实现。

源数据

数据集收集了由日本政府机构或地方政府创建的公开文档，如市政宣传册和网站。

初始数据收集和规范化

通过手动从日本国会图书馆（NDL）的数字收藏、网络档案项目（WARP）和日本政府部门的网站收集 PDF 文档。使用 PyPDF2 从 PDF 文档中提取文本，对于无法提取嵌入文本的文档，使用 OCR 技术从文档页面图像中提取文本。

谁是源语言生产者？

JDocQA 数据集包含 5,504 个文件和 11,600 个日语问答对。

标注

标注过程

要求标注者在每个文档中编写两到四个问答标注，并避免使用任何 AI 工具如 OpenAI ChatGPT。每个问题都附有支持事实的标记。

谁是标注者？

共有 43 名标注者参与了问答对的标注工作。

使用数据的注意事项

数据集的社会影响

JDocQA 数据集预计对生成语言模型及其在日语文档问答应用中的研究和开发有用。

偏见讨论

数据集选择由公共或准公共部门发布的公开文档，以确保数据集使用的公开性。

其他已知限制

数据集中的不可回答问题有助于解决大型语言模型的幻觉问题，但这并不意味着经过微调的模型完全不会产生幻觉。

附加信息

数据集策展人

[更多信息需要]

许可信息

JDocQA 数据集标注在 CC BY-SA 4.0 许可下发布。

引用信息

bibtex @inproceedings{onami2024jdocqa, title={JDocQA: Japanese Document Question Answering Dataset for Generative Language Models}, author={Onami, Eri and Kurita, Shuhei and Miyanishi, Taiki and Watanabe, Taro}, booktitle={Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)}, pages={9503--9514}, year={2024} }

贡献

感谢 @mizuumi 创建此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集