allenai/qasper|自然语言处理数据集|问答系统数据集
收藏hugging_face2022-10-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/qasper
下载链接
链接失效反馈资源简介:
QASPER是一个用于科学论文问答的数据集,包含5,049个问题,覆盖1,585篇自然语言处理领域的论文。问题由NLP从业者根据论文的标题和摘要提出,并由另一组NLP从业者提供答案和支持证据。数据集支持的任务包括问答和证据选择,且有一个活跃的排行榜。数据集的语言为英语,数据字段详细解释了问题和答案的相关信息。
提供机构:
allenai
原始信息汇总
数据集概述
名称: QASPER
语言: 英语(en-US)
许可证: CC BY 4.0
多语言性: 单语
大小: 10K<n<100K
来源数据集: 扩展自s2orc
任务类别: 问答(question-answering)
任务ID: closed-domain-qa
论文代码ID: qasper
数据集描述
概述: QASPER是一个针对科学研究论文的问答数据集,包含5,049个问题,涉及1,585篇自然语言处理(NLP)论文。每个问题由阅读了论文标题和摘要的NLP实践者编写,旨在从全文获取信息。问题的答案由另一组NLP实践者提供,并附有支持证据。
支持的任务和排行榜:
- 问答(question-answering): 用于训练问答模型,成功标准为高F1分数。官方基线模型使用Longformer,当前Token F1分数为33.63。
- 证据选择(evidence-selection): 用于训练证据选择模型,成功标准为高F1分数。官方基线模型使用Longformer,当前F1分数为39.37。
数据集结构
数据实例: 每个实例包括论文ID、标题、摘要、全文(包含段落和节标题)、问题和答案(包括回答者ID、答案内容、证据和支持的段落)。
数据字段:
- 问题相关字段: 包括问题编写者的NLP背景、主题背景、是否阅读过论文及搜索查询。
- 答案相关字段: 包括是否可回答、提取的答案段落、自由形式答案、是/否答案、证据和支持的文本段落。
数据分割:
- 训练集: 888篇论文,2593个问题,2675个答案。
- 验证集: 281篇论文,1005个问题,1764个答案。
数据集创建
注释者: 由NLP实践者进行注释,非专家研究人员。
许可证: 数据集遵循CC BY 4.0许可证。
引用信息:
@inproceedings{Dasigi2021ADO, title={A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers}, author={Pradeep Dasigi and Kyle Lo and Iz Beltagy and Arman Cohan and Noah A. Smith and Matt Gardner}, year={2021} }
AI搜集汇总
数据集介绍

构建方式
QASPER数据集的构建基于对1,585篇自然语言处理(NLP)研究论文的深入分析。该数据集包含5,049个问题,这些问题由NLP从业者根据论文的标题和摘要提出,旨在从全文获取信息。每个问题由另一组NLP从业者回答,并提供支持答案的证据。数据集的构建过程确保了问题的多样性和答案的准确性,从而为封闭域问答任务提供了丰富的资源。
特点
QASPER数据集的显著特点在于其专注于科学研究论文的问答任务,涵盖了从标题、摘要到全文的广泛信息。数据集中的每个问题都附有详细的答案和支持证据,这不仅有助于模型的训练,还为研究者提供了深入理解论文内容的机会。此外,数据集的结构设计使得问题和答案之间的关联性清晰可见,便于进行多层次的分析和评估。
使用方法
QASPER数据集主要用于训练和评估问答系统,特别是在封闭域问答任务中。研究者可以通过该数据集训练模型,以提高其在科学文献中的信息提取和问答能力。使用时,可以利用数据集中的问题和答案对模型进行微调,并通过F1分数等指标评估模型的性能。此外,数据集还支持证据选择任务,研究者可以利用提供的证据段落来进一步优化模型的表现。
背景与挑战
背景概述
QASPER数据集由Allen Institute for AI主导开发,专注于科学研究论文的问答任务。该数据集于2021年发布,汇集了5,049个问题和1,585篇自然语言处理领域的论文,旨在推动问答系统在科学文献中的应用。QASPER的核心研究问题是如何在仅阅读论文标题和摘要的情况下,生成针对全文内容的信息寻求问题,并由另一组NLP从业者提供答案及支持证据。这一数据集的创建不仅填补了科学文献问答领域的空白,还为模型训练和评估提供了宝贵的资源,推动了问答技术在学术研究中的应用。
当前挑战
QASPER数据集在构建过程中面临多项挑战。首先,如何从科学论文中提取有意义的问题并确保其与全文内容相关,是一个复杂的过程。其次,答案的生成需要精确的证据支持,这对标注者的专业性和一致性提出了高要求。此外,数据集的规模和多样性也带来了处理和存储的挑战。在应用层面,如何有效利用该数据集训练模型,以提高问答系统的准确性和鲁棒性,是当前研究的重点和难点。
常用场景
经典使用场景
QASPER数据集的经典使用场景主要集中在科学研究论文的问答系统开发上。该数据集通过提供大量关于自然语言处理(NLP)论文的问题和答案,帮助研究人员训练和评估模型在封闭域问答任务中的表现。这些问题和答案不仅涵盖了论文的标题和摘要,还深入到全文内容,使得模型能够更好地理解和回答与论文内容相关的复杂问题。
解决学术问题
QASPER数据集解决了在科学研究领域中,如何有效提取和理解复杂文献信息的核心问题。通过提供结构化的问答数据,该数据集为研究人员提供了一个标准化的基准,用于评估和改进问答系统的性能。这不仅推动了自然语言处理技术在学术文献中的应用,还为自动化学术文献分析和信息检索提供了新的研究方向。
衍生相关工作
QASPER数据集的发布催生了一系列相关研究工作,特别是在长文本处理和证据选择领域。例如,基于Longformer模型的应用展示了如何有效处理长篇学术文档中的问答任务。此外,该数据集还激发了对多模态数据(如文本、表格和图表)整合的研究,推动了学术文献问答系统在更广泛领域的应用和发展。
以上内容由AI搜集并总结生成



