JDocQA
收藏arXiv2024-03-28 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2403.19454v1
下载链接
链接失效反馈官方服务:
资源简介:
JDocQA是一个专注于日语文档问题回答的大型数据集,由奈良先端科学技术大学院大学和RIKEN共同创建。该数据集包含5,504个PDF文档,涵盖报告、幻灯片、宣传册和网站等多种格式,共有11,600个问题-答案对。每个问题-答案对都涉及到文档中的文本和视觉元素,如表格或图表,并包含对答案线索的页面引用和边界框标注。JDocQA旨在通过集成文本和视觉信息,评估生成语言模型在实际应用中的问题回答能力,特别强调了不可回答问题的处理,以减少模型产生的幻觉现象。
提供机构:
奈良先端科学技术大学院大学
创建时间:
2024-03-28
搜集汇总
数据集介绍

背景与挑战
背景概述
JDocQA是一个专注于日语文档问题回答的大型数据集,包含5,504个PDF文档和11,600个问题-答案对,涵盖报告、幻灯片等多种格式。其特点在于集成文本和视觉元素,如表格或图表,每个问题-答案对都有页面引用和边界框标注,旨在评估生成语言模型在实际应用中的能力,并特别强调不可回答问题的处理以减少幻觉现象。
以上内容由遇见数据集搜集并总结生成



