five

shunk031/JDocQA

收藏
Hugging Face2024-05-21 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/shunk031/JDocQA
下载链接
链接失效反馈
官方服务:
资源简介:
JDocQA是一个大规模的日语文档问答数据集,包含5504个PDF格式的文档和11600个问答对。数据集支持生成式问答任务,包括是/否问题、事实性问题、数值问题和开放式问题。数据集的注释由43名注释者完成,数据来源于日本政府机构或地方政府的公开文档。数据集的设计旨在评估模型在结合视觉和文本信息的情况下回答问题的能力。
提供机构:
shunk031
原始信息汇总

JDocQA 数据集概述

数据集描述

数据集摘要

JDocQA 是一个大规模的日语文档问答数据集,包含 5,504 个 PDF 格式的文档和 11,600 个日语标注的问答实例。该数据集要求同时使用视觉和文本信息来回答问题。

支持的任务和排行榜

JDocQA 支持以下四种类型的问答任务:

  1. Yes/No 问题:答案为“是”或“否”。
  2. 事实性问题:答案为文档中出现的事实,如命名实体。
  3. 数值问题:答案为数值,可能包括单位或日本数字。
  4. 开放性问题:需要自由形式的回答,评估基于提供上下文和问题的复杂理解能力。

语言

数据集中的语言为日语(BCP-47 ja-JP)。

数据集结构

数据实例

数据集包含以下字段:

  • answer
  • answer_type
  • context
  • multiple_select_answer
  • multiple_select_question
  • no_reason
  • normalized_answer
  • original_answer
  • original_context
  • original_question
  • pdf_category
  • pdf_name
  • question
  • question_number
  • question_page_number
  • reason_of_answer_bbox
  • text_from_ocr_pdf
  • text_from_pdf
  • type_of_image
  • pdf_filepath

数据分割

数据集分为训练集、验证集和测试集,分别包含 9,290 件、1,134 件和 1,176 件问答实例。

数据集创建

策划理由

JDocQA 数据集旨在满足对大规模、完全标注的日语文档问答数据集的需求,通过收集日语 PDF 格式的文档并手动标注问答对来实现。

源数据

数据集收集了由日本政府机构或地方政府创建的公开文档,如市政宣传册和网站。

初始数据收集和规范化

通过手动从日本国会图书馆(NDL)的数字收藏、网络档案项目(WARP)和日本政府部门的网站收集 PDF 文档。使用 PyPDF2 从 PDF 文档中提取文本,对于无法提取嵌入文本的文档,使用 OCR 技术从文档页面图像中提取文本。

谁是源语言生产者?

JDocQA 数据集包含 5,504 个文件和 11,600 个日语问答对。

标注

标注过程

要求标注者在每个文档中编写两到四个问答标注,并避免使用任何 AI 工具如 OpenAI ChatGPT。每个问题都附有支持事实的标记。

谁是标注者?

共有 43 名标注者参与了问答对的标注工作。

使用数据的注意事项

数据集的社会影响

JDocQA 数据集预计对生成语言模型及其在日语文档问答应用中的研究和开发有用。

偏见讨论

数据集选择由公共或准公共部门发布的公开文档,以确保数据集使用的公开性。

其他已知限制

数据集中的不可回答问题有助于解决大型语言模型的幻觉问题,但这并不意味着经过微调的模型完全不会产生幻觉。

附加信息

数据集策展人

[更多信息需要]

许可信息

JDocQA 数据集标注在 CC BY-SA 4.0 许可下发布。

引用信息

bibtex @inproceedings{onami2024jdocqa, title={JDocQA: Japanese Document Question Answering Dataset for Generative Language Models}, author={Onami, Eri and Kurita, Shuhei and Miyanishi, Taiki and Watanabe, Taro}, booktitle={Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)}, pages={9503--9514}, year={2024} }

贡献

感谢 @mizuumi 创建此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作