E-KAR

Name: E-KAR
Creator: 复旦大学数据科学重点实验室
Published: 2022-03-16 17:16:38
License: 暂无描述

arXiv2022-03-16 更新2024-06-21 收录

下载链接：

https://ekar-leaderboard.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

E-KAR是一个针对自然语言类比推理的基准数据集，包含1655个问题，来源于中国的公务员考试，要求深入的背景知识来解决。数据集设计了自由文本解释方案，为每个问题和候选答案手动注释解释。E-KAR旨在通过这些解释来验证类比推理的过程，适用于研究模型在解释生成和类比问题回答任务上的表现。

E-KAR is a benchmark dataset for natural language analogy reasoning. It contains 1,655 questions sourced from Chinese civil service examinations, which require in-depth background knowledge to solve. The dataset adopts free-text explanation frameworks, with manual annotations of explanations for each question and its candidate answers. E-KAR aims to validate the analogy reasoning process through these explanations, and is suitable for researching model performance on tasks such as explanation generation and analogy question answering.

提供机构：

复旦大学数据科学重点实验室

创建时间：

2022-03-16

搜集汇总

数据集介绍

构建方式

在类比推理研究领域，E-KAR数据集的构建体现了对知识密集性推理过程的高度关注。该数据集源自中国公务员考试中的类比推理题目，经过精心筛选，最终保留了1,655道中文题目和1,251道英文题目，这些题目均需依赖丰富的背景知识进行解答。构建过程中，研究团队依据认知心理学中的结构映射理论，为每道题目及其候选答案手工标注了自由文本解释，以揭示类比推理的内在逻辑。为确保标注质量，采用了双轮校验机制，首先由构造团队撰写解释，随后由校验团队进行审核与修正，最终由作者进行校准，从而保证了数据集的可靠性与解释的准确性。

特点

E-KAR数据集的核心特点在于其知识密集性与解释性。题目内容涵盖语言学、常识、百科全书及文化知识，要求模型具备深度的推理能力。与传统的词汇类比基准不同，E-KAR不仅包含二元关系，还涉及三元术语的复杂类比，增加了任务的挑战性。此外，数据集提供了详细的自由文本解释，这些解释遵循结构映射过程，包括源结构的推导、映射到候选答案以及验证步骤，为模型的推理过程提供了可解释的监督。数据集的跨语言版本（中文与英文）进一步扩展了其适用范围，尽管英文版本剔除了文化特定样本，但仍保留了普遍的常识与事实知识需求。

使用方法

E-KAR数据集支持两种主要任务：类比问答与解释生成。在类比问答任务中，模型需根据查询术语元组和候选答案，选择最具类比性的答案，评估指标为多项选择的准确率。解释生成任务则要求模型为查询和候选答案生成自由文本解释，以合理化推理过程，评估可通过文本生成指标（如ROUGE、BERTScore）或通过解释对下游问答任务的帮助程度进行。数据集还提供了两种任务模式：HARD模式仅提供查询和候选答案，而EASY模式额外提供查询解释，以降低源结构推导的难度，使模型更专注于验证映射过程。这些设置旨在促进模型在知识密集型类比推理中的可解释性与性能提升。

背景与挑战

背景概述

E-KAR（可解释知识密集型类比推理基准）由复旦大学、字节跳动人工智能实验室等机构的研究团队于2022年提出，旨在推动自然语言处理领域对类比推理能力的深入探索。该数据集源自中国公务员考试中的类比推理题目，包含1,655道中文题与1,251道英文题，其核心研究问题在于评估神经模型是否能够像人类一样进行基于知识的类比推理，并生成可解释的推理过程。E-KAR首次将自由文本解释与类比问题相结合，通过结构化映射理论指导标注，为模型的可解释性与推理能力设立了新的评估标准，对认知科学与人工智能的交叉研究产生了重要影响。

当前挑战

E-KAR面临的挑战主要体现在两个方面：其一，在领域问题层面，传统类比推理基准多关注简单的线性关系（如词向量算术），而E-KAR要求模型处理涉及常识、文化背景与复杂语义关系的知识密集型推理，这对现有模型的深度理解与知识整合能力提出了严峻考验；其二，在构建过程中，数据收集需从公务员考试中筛选出依赖多元知识的题目，而解释标注则需遵循认知心理学的结构映射理论，通过多轮人工校验确保自由文本解释的准确性与一致性，这一过程耗时耗力且对标注者的专业知识要求极高。

常用场景

经典使用场景

在认知科学与自然语言处理领域，类比推理被视为衡量机器智能的关键能力。E-KAR数据集通过引入源自中国公务员考试的知识密集型类比问题，构建了一个涵盖语言、常识、百科与文化知识的复杂推理场景。其经典使用场景在于评估模型在多重候选答案中识别最恰当类比关系的能力，要求模型不仅理解术语间的表层关联，还需深入挖掘隐含的结构映射与背景知识。例如，模型需判断“教科书：书店：印刷厂”与“茶：茶壶：茶杯”是否遵循相同的运输关系，这涉及对术语功能、顺序及常识的精细推理。

衍生相关工作

E-KAR数据集催生了一系列围绕可解释类比推理的延伸研究。例如，后续工作探索了如何将结构映射理论更深度地集成到预训练语言模型中，以提升模型在E-KAR上的表现。同时，该数据集激发了针对否定事实生成与反事实推理的专项研究，如开发能够生成“丈夫并非职业”这类否定陈述的模型。此外，基于E-KAR的跨语言与文化适应性研究也逐渐兴起，学者们尝试将其框架扩展至更多语言与文化语境，以检验类比推理的普遍性与特异性。

数据集最近研究