eQASC, eQASC-perturbed, eOBQA

Name: eQASC, eQASC-perturbed, eOBQA
Creator: 卡内基梅隆大学计算机科学学院
Published: 2020-10-07 16:46:02
License: 暂无描述

arXiv2020-10-07 更新2024-06-21 收录

下载链接：

https://allenai.org/data/eqasc

下载链接

链接失效反馈

官方服务：

资源简介：

本研究引入了三个解释性数据集，旨在提升多跳问答系统中答案解释的质量。首个数据集eQASC，包含超过98,000个解释注释，针对QASC多跳问答数据集，首次为每个答案标注多个候选解释。第二个数据集eQASC-perturbed通过众包方式对QASC中部分解释进行语义不变的扰动，以测试解释预测模型的稳定性和泛化能力。第三个数据集eOBQA则是在OBQA数据集基础上添加解释注释，用于测试模型在eQASC训练后的泛化能力。这些数据集不仅支持解释分类模型的训练和评估，还通过引入去词汇化的链式表示，将重复名词短语替换为变量，形成泛化推理链，从而提高模型对特定扰动的鲁棒性。

This study introduces three explanatory datasets intended to enhance the quality of answer explanations in multi-hop question answering systems. The first dataset, eQASC, includes over 98,000 explanation annotations, and is the first to annotate multiple candidate explanations for each answer in the QASC multi-hop question answering dataset. The second dataset, eQASC-perturbed, performs semantically invariant perturbations on a subset of explanations in QASC through crowdsourcing, to test the stability and generalization performance of explanation prediction models. The third dataset, eOBQA, adds explanation annotations to the original OBQA dataset, and is used to evaluate the generalization ability of models trained on eQASC. These datasets not only support the training and evaluation of explanation classification models, but also introduce delexicalized chain representations, which replace repeated noun phrases with variables to form generalized inference chains, thereby improving the robustness of models against specific perturbations.

提供机构：

卡内基梅隆大学计算机科学学院

创建时间：

2020-10-07

搜集汇总

数据集介绍

构建方式

在多跳问答领域，解释性数据的稀缺性制约了模型的可解释性发展。eQASC数据集的构建采用了系统化的候选链生成与人工标注相结合的方法。首先，基于QASC数据集中的问题与正确答案，通过两阶段检索算法从包含1700万条事实的语料库中提取最多10条候选推理链，该算法强调词汇重叠以筛选潜在合理的链式结构。随后，通过亚马逊众包平台聘请经过资质认证的标注员，对每条候选链是否构成有效推理进行精细标注，每条链由三名标注员独立评判，并采用多数表决机制确保标注质量，最终形成了包含超过9.8万条标注链的大规模数据集。

使用方法

该数据集主要用于训练和评估能够识别有效推理链的解释生成模型。典型的使用流程包含两个阶段：首先，利用检索模块（如基于ElasticSearch的算法）从给定语料中为问题-答案对生成一组候选推理链。随后，采用基于预训练语言模型（如BERT）的分类器对候选链进行有效性评分，该分类器通过在eQASC的训练集上进行微调，学习区分有效与无效的推理结构。评估时，既可将任务视为二分类问题，采用F1分数和AUC-ROC等指标；也可视为排序任务，使用P@1和NDCG来衡量模型从候选集中挑出最佳解释的能力。eQASC-perturbed专门用于测试模型对语义不变扰动的预测一致性，而eOBQA则用于检验模型在未见领域数据上的泛化性能。广义推理链表示可作为另一种输入形式，旨在提升模型对抽象推理模式的捕捉能力。

背景与挑战

背景概述

在自然语言处理领域，多跳问答系统虽已取得显著进展，但其答案的可解释性仍面临挑战，缺乏高质量的解释性训练数据制约了模型的透明化发展。为应对这一瓶颈，卡内基梅隆大学与艾伦人工智能研究所的研究团队于2020年共同构建了eQASC、eQASC-perturbed与eOBQA三个解释性数据集。这些数据集以科学知识库QASC为基础，通过众包标注了超过9.8万条包含有效与无效推理链的注释，首次实现了对每个答案的多候选解释标注。其核心研究目标在于推动多跳问答中结构化推理链的自动识别与生成，通过提供大规模可验证的解释数据，显著提升了模型解释能力的可训练性与评估可靠性，为可解释人工智能在教育和知识推理等领域的应用奠定了数据基础。

当前挑战

该数据集旨在解决多跳问答中答案解释生成的难题，其核心挑战在于从海量知识库中自动识别并组合出逻辑严密的推理链。具体而言，模型需在候选推理链中准确区分有效与无效解释，这要求系统不仅能理解局部语义关联，还需把握跨句逻辑衔接与常识推理。在构建过程中，研究团队面临两大挑战：一是候选链生成依赖检索算法，其召回率限制了系统性能上限，约24%的问题无法检索到有效推理链；二是众包标注需保证高质量与一致性，尽管采用多重质量控制机制，标注者间一致性系数仅为0.37，部分链的合法性判断仍存在边界模糊现象。此外，数据集还通过扰动测试与跨领域迁移任务，揭示了模型在语义不变性泛化与领域适应性方面的深层挑战。

常用场景

经典使用场景

在自然语言处理领域，多跳问答系统需要从多个事实中推导答案，但模型往往难以提供清晰的推理过程解释。eQASC、eQASC-perturbed和eOBQA数据集正是为填补这一空白而设计，它们通过标注大量候选推理链，为模型训练提供了丰富的解释性数据。这些数据集最经典的使用场景是训练和评估能够识别有效推理链的模型，例如基于BERT的分类器，从而提升多跳问答系统的解释能力。研究者在构建解释系统时，常利用这些数据集来优化候选链的检索与评分机制，推动可解释人工智能的发展。

解决学术问题

这些数据集主要解决了多跳问答中解释生成的数据稀缺问题。传统数据集如QASC仅提供单一黄金解释，而实际可能存在多种有效推理路径。eQASC通过标注超过9.8万条候选链（包含有效与无效样本），为模型训练提供了充足的监督信号。此外，eQASC-perturbed通过语义不变的扰动测试模型的一致性，eOBQA则用于评估模型的跨领域泛化能力。它们共同推动了可解释推理研究，使模型不仅能给出答案，还能展示可信的推理过程，增强了人工智能系统的透明度和可信度。

实际应用

在实际应用中，这些数据集支撑的模型可部署于教育辅导、知识检索和决策支持系统。例如，在智能教育平台中，系统不仅能回答学生的科学问题，还能呈现完整的推理链，帮助学生理解答案背后的逻辑。在专业领域如医疗或法律咨询中，模型提供的解释有助于用户评估答案的可靠性。此外，基于广义推理链（GRC）的表示方法提升了模型对词汇变化的鲁棒性，使其在真实场景中面对语言变体时仍能保持稳定的解释性能，增强了实用价值。

数据集最近研究