shunk031/JDocQA
收藏JDocQA 数据集概述
数据集描述
数据集摘要
JDocQA 是一个大规模的日语文档问答数据集,包含 5,504 个 PDF 格式的文档和 11,600 个日语标注的问答实例。该数据集要求同时使用视觉和文本信息来回答问题。
支持的任务和排行榜
JDocQA 支持以下四种类型的问答任务:
- Yes/No 问题:答案为“是”或“否”。
- 事实性问题:答案为文档中出现的事实,如命名实体。
- 数值问题:答案为数值,可能包括单位或日本数字。
- 开放性问题:需要自由形式的回答,评估基于提供上下文和问题的复杂理解能力。
语言
数据集中的语言为日语(BCP-47 ja-JP)。
数据集结构
数据实例
数据集包含以下字段:
answeranswer_typecontextmultiple_select_answermultiple_select_questionno_reasonnormalized_answeroriginal_answeroriginal_contextoriginal_questionpdf_categorypdf_namequestionquestion_numberquestion_page_numberreason_of_answer_bboxtext_from_ocr_pdftext_from_pdftype_of_imagepdf_filepath
数据分割
数据集分为训练集、验证集和测试集,分别包含 9,290 件、1,134 件和 1,176 件问答实例。
数据集创建
策划理由
JDocQA 数据集旨在满足对大规模、完全标注的日语文档问答数据集的需求,通过收集日语 PDF 格式的文档并手动标注问答对来实现。
源数据
数据集收集了由日本政府机构或地方政府创建的公开文档,如市政宣传册和网站。
初始数据收集和规范化
通过手动从日本国会图书馆(NDL)的数字收藏、网络档案项目(WARP)和日本政府部门的网站收集 PDF 文档。使用 PyPDF2 从 PDF 文档中提取文本,对于无法提取嵌入文本的文档,使用 OCR 技术从文档页面图像中提取文本。
谁是源语言生产者?
JDocQA 数据集包含 5,504 个文件和 11,600 个日语问答对。
标注
标注过程
要求标注者在每个文档中编写两到四个问答标注,并避免使用任何 AI 工具如 OpenAI ChatGPT。每个问题都附有支持事实的标记。
谁是标注者?
共有 43 名标注者参与了问答对的标注工作。
使用数据的注意事项
数据集的社会影响
JDocQA 数据集预计对生成语言模型及其在日语文档问答应用中的研究和开发有用。
偏见讨论
数据集选择由公共或准公共部门发布的公开文档,以确保数据集使用的公开性。
其他已知限制
数据集中的不可回答问题有助于解决大型语言模型的幻觉问题,但这并不意味着经过微调的模型完全不会产生幻觉。
附加信息
数据集策展人
[更多信息需要]
许可信息
JDocQA 数据集标注在 CC BY-SA 4.0 许可下发布。
引用信息
bibtex @inproceedings{onami2024jdocqa, title={JDocQA: Japanese Document Question Answering Dataset for Generative Language Models}, author={Onami, Eri and Kurita, Shuhei and Miyanishi, Taiki and Watanabe, Taro}, booktitle={Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)}, pages={9503--9514}, year={2024} }
贡献
感谢 @mizuumi 创建此数据集。



