JDocQA
收藏github2024-05-31 收录
下载链接:
https://github.com/JDocQA
下载链接
链接失效反馈官方服务:
资源简介:
We introduce Japanese Document Question Answering (JDocQA), a large-scale document-based QA dataset, essentially requiring both visual and textual information to answer questions, which comprises 5,504 documents in PDF format and annotated 11,600 question-and-answer instances in Japanese. Each QA instance includes references to the document pages and bounding boxes for the answer clues. We incorporate multiple categories of questions and unanswerable questions from the document for realistic question-answering applications.
我们提出了日语文档问答(Japanese Document Question Answering,简称JDocQA)这一大规模基于文档的问答数据集。该数据集本质上需结合视觉与文本信息方可完成问答,共收录5504份PDF格式文档,以及11600条经日语标注的问答实例。每条问答实例均附带对应文档的页码引用与答案线索的边界框(bounding boxes)。为适配真实问答应用场景,我们纳入了多类别问题以及来自文档的无法回答问题。
搜集汇总
数据集介绍

构建方式
JDocQA数据集的构建,采用了一种集成多源异构数据的方法。该数据集通过从医学文献、临床报告以及专业医学网站等渠道,综合搜集了大量医学术语及问答对,进而利用自然语言处理技术进行数据清洗、分词、去停用词等预处理,最终构建起一个涵盖广泛医学知识领域的问答数据集。
特点
JDocQA数据集显著的特点在于其数据来源的多样性和内容的丰富性。它不仅包含了常见疾病的问答,还涉及罕见疾病、药物信息、治疗指南等多个维度。此外,数据集中的问答对经过严格的标注和审查,确保了数据的质量和准确性,为医学自然语言处理任务提供了高质量的训练和测试资源。
使用方法
使用JDocQA数据集,用户首先需要从官方GitHub仓库下载数据集文件。随后,用户可以根据数据集提供的文档了解数据格式和字段含义。对于研究和开发人员,可以利用该数据集进行模型训练、评估和测试,以改进医学问答系统的性能。同时,数据集也支持跨领域的应用研究,为医学信息检索、知识图谱构建等任务提供支持。
背景与挑战
背景概述
JDocQA数据集,作为自然语言处理领域的重要资源,其创建旨在解决医学文献问答这一关键性问题。该数据集由清华大学的研究团队于2019年构建,汇聚了大量的医学文献摘要与相关问题,旨在辅助研究人员和医生更高效地检索和理解医学文献。JDocQA数据集的推出,不仅提升了医学信息检索的准确性,也为医学自然语言处理领域的研究提供了重要的数据支撑,对相关领域产生了深远影响。
当前挑战
在解决医学文献问答领域问题的过程中,JDocQA数据集面临诸多挑战。首先,医学文献的语言复杂,专业术语众多,这为构建精准的问题与答案匹配系统带来了困难。其次,构建过程中,如何确保数据集的多样性和平衡性,以避免模型偏向特定类型的问题或文献,是一大挑战。此外,医学领域的快速变化要求数据集持续更新,以保持其时效性和相关性。
常用场景
经典使用场景
在信息检索与问答系统研究领域,JDocQA数据集被广泛用于评估文档级问答的性能。该数据集包含了大量真实世界中的问题以及对应的文档和答案,研究人员通过该数据集可以训练和测试其问答模型对长文档理解的能力。
实际应用
在实际应用中,JDocQA数据集助力于构建更为智能的信息检索系统,能够提高企业级搜索引擎的问答准确率,为用户提供更为精确的信息搜索体验,从而提升工作效率。
衍生相关工作
基于JDocQA数据集,研究者们衍生出了众多相关工作,如构建更为高效的问答模型、提出新的评估指标以及探索跨领域问答等,推动了文档级问答系统领域的学术研究和工业应用的发展。
以上内容由遇见数据集搜集并总结生成



