NOAHQA
收藏arXiv2021-10-14 更新2024-06-21 收录
下载链接:
https://github.com/Don-Joey/NoahQA
下载链接
链接失效反馈官方服务:
资源简介:
NOAHQA是一个包含复杂数值推理问题的对话式双语问答数据集,由电子科技大学和新加坡管理大学共同创建。数据集包含21,347个样本,每个样本包括一个背景段落和多个问答对。NOAHQA特别强调数值推理和解释性,通过提供推理图来明确展示每个问题的全局推理过程。该数据集旨在推动数值问答和可解释问答的研究,特别是在需要复合数学表达式的场景中。
NOAHQA is a conversational bilingual question answering dataset containing complex numerical reasoning questions, co-created by the University of Electronic Science and Technology of China and Singapore Management University. The dataset consists of 21,347 samples, each including a background passage and multiple question-answer pairs. NOAHQA places special emphasis on numerical reasoning and explainability, and explicitly demonstrates the global reasoning process of each question by providing reasoning graphs. This dataset aims to advance research on numerical question answering and explainable question answering, particularly in scenarios requiring complex mathematical expressions.
提供机构:
电子科技大学
创建时间:
2021-09-22
搜集汇总
数据集介绍

构建方式
在数值推理与可解释性图问答领域,NOAHQA数据集的构建体现了严谨的学术设计。该数据集以数学应用题为核心基础,从Math23K和MAWPS两个经典开源数据集中精心筛选了超过两万道题目作为原始语料。通过雇佣具备专业背景的标注人员,依据详尽的标注指南,围绕每篇短文构建多轮对话。标注过程不仅要求生成涵盖提取、数值推理、反事实、比较、是非及不可回答等六种类型的多样化问题,还特别强调问题间的连贯性与多步推理关系。随后,由另一组标注者对每个问题的直接证据进行标注,这些证据可来自原文片段或历史问答对,并最终通过广度优先搜索算法构建出可解释的推理图。为确保质量,数据集构建过程中实施了定量抽样等质量控制机制,并对机器翻译的英文版本进行了人工校对与纠偏。
特点
NOAHQA数据集的核心特点在于其针对复杂数值推理与模型可解释性研究的深度设计。数据集以对话形式呈现,模拟了真实的人机交互场景,其中问题不仅要求最终答案,更涉及包含括号组合的复合数学表达式推导。其最具创新性的特点是提供了以有向无环图形式标注的推理图,该图清晰地揭示了从问题到答案的全局推理步骤与证据间的交互关系,为评估模型的可解释性提供了结构化标准。此外,数据集具备双语特性,包含中文原文及经人工校对的英文译文,支持跨语言研究。数据分布分析显示,问题类型丰富,证据引用模式随着对话轮次深入而动态变化,有效避免了简单的模式偏差,对现有模型构成了显著挑战。
使用方法
NOAHQA数据集主要用于训练和评估具备数值推理与可解释性能力的问答模型。研究者可将数据集按既定划分用于模型训练、验证与测试。模型的核心任务是:给定背景短文、历史对话及当前问题,生成准确的文本答案并同时预测其对应的推理图。对于答案评估,采用精确匹配分数,以避免不同但重叠的数字产生高F1分数的混淆。对于推理图评估,数据集引入了DAGsim自动评估指标,该指标综合考虑预测图与真实图在结构和节点语义上的相似度,比传统的图精确匹配或边精度-召回率更为全面。数据集中提供的证据标注和推理图可作为监督信号,引导模型学习可解释的推理过程。相关基线模型RGNet展示了如何整合编码、图推理与预测模块来完成此项复杂任务。
背景与挑战
背景概述
NOAHQA数据集由电子科技大学与新加坡管理大学的研究团队于2021年共同创建,旨在填补数值推理与可解释性问答领域的空白。该数据集聚焦于复杂数学表达式的多轮对话问答,其核心研究问题在于提升问答模型在数值计算与推理过程透明化方面的能力。通过引入双语对话形式与推理图标注,NOAHQA推动了自然语言处理领域对多步数值推理与模型可解释性的深入研究,为后续基于图结构的推理模型提供了重要基准。
当前挑战
NOAHQA面临的挑战主要体现在两方面:其一,在领域问题层面,现有模型难以处理涉及复合数学表达式(如括号组合运算)的多轮数值推理,且缺乏对推理过程显式建模的能力,导致模型在答案生成与解释一致性上存在显著差距;其二,在构建过程中,需克服多轮对话的逻辑连贯性维护、跨语言翻译的数学语义保真度,以及推理图标注的复杂结构一致性等难题,这些因素共同增加了数据集的构建复杂度与质量保障难度。
常用场景
经典使用场景
在自然语言处理领域,数值推理与可解释性研究日益受到重视,NOAHQA数据集以其独特的双语对话形式与复杂数学表达式问题,成为评估模型多步推理能力的经典基准。该数据集通过提供包含加减乘除及括号组合的数值问题,要求模型不仅生成准确答案,还需构建可解释的推理图,从而推动模型在对话语境下的深层理解与逻辑演绎。
解决学术问题
NOAHQA数据集有效应对了现有问答数据集中数值推理简单化与解释性不足的双重挑战。它通过引入复合数学表达式问题,突破了传统数据集中仅涉及基础运算的局限,同时以推理图形式明确展示证据间的交互与顺序,为模型的可解释性提供了结构化监督。这一设计显著提升了数值推理任务的复杂度,填补了复杂多步推理与解释生成相结合的研究空白。
衍生相关工作
NOAHQA数据集催生了一系列围绕可解释数值推理的创新研究,其中最具代表性的是推理图网络(RGNet)的提出。该模型结合图卷积网络与指针生成机制,实现了答案生成与推理图构建的联合优化。后续工作在此基础上进一步探索了跨语言迁移学习、推理图自动评估方法DAGsim的改进,以及针对不同问题类型的模块化架构设计,持续推动着可解释问答技术的前沿发展。
以上内容由遇见数据集搜集并总结生成



