ECQA

github2021-08-01 更新2025-02-08 收录

下载链接：

https://github.com/dair-iitd/ECQA-Dataset

下载链接

链接失效反馈

资源简介：

ECQA数据集（Explanation CommonsenseQA的缩写）源自CommonsenseQA。经过人工标注后，它包含了从CommonsenseQA中提取的11K问答对的正向和负向属性，以及英文解释。其目标是为CommonsenseQA中的基于知识的问答任务提供解释，深入理解与各种选项相关的通用属性。

The ECQA dataset (an abbreviation for Explanation CommonsenseQA) originates from CommonsenseQA. After being manually annotated, it encompasses 11K question-answer pairs with their positive and negative attributes extracted from CommonsenseQA, along with English explanations. Its aim is to provide explanations for knowledge-based question-answering tasks within CommonsenseQA, delving into the general attributes related to various options.

提供机构：

IIT Delhi et al.

创建时间：

2021-08-01

原始信息汇总

ECQA-Dataset 数据集概述

数据集基本信息

名称: Explanations for CommonsenseQA (ECQA)
来源论文: Explanations for CommonsenseQA: New Dataset and Models (ACL-IJCNLP 2021)
论文地址: https://aclanthology.org/2021.acl-long.238/
原始数据来源: CommonsenseQA (arXiv:1811.00937 [cs.CL])
许可证: Community Data License Agreements Sharing license 1.0

数据集内容

核心数据文件: ecqa.jsonl
- 格式: 每行一个JSON对象
- 字段说明:
  - id: 字符串类型，对应CQA数据的样本ID
  - positives: 字符串列表，正确选项的正面属性
  - negatives: 字符串列表，错误选项的负面属性
  - explanation: 字符串类型，自由形式的解释文本
数据划分文件 (位于author_split目录):
- train_ids.txt: 训练集ID列表
- val_ids.txt: 验证集ID列表
- test_ids.txt: 测试集ID列表

数据整合说明

依赖数据: CommonsenseQA官方数据文件
- 必须下载文件: train_rand_split.jsonl和dev_rand_split.jsonl
- 下载地址: https://www.tau-nlp.org/commonsenseqa
生成完整数据的步骤:
1. 创建cqa目录并放入CommonsenseQA数据文件
2. 安装依赖库: json和pandas
3. 运行generate_data.py脚本
生成文件:
- cqa_data.csv: 完整数据
- cqa_data_train.csv: 训练集
- cqa_data_val.csv: 验证集
- cqa_data_test.csv: 测试集

生成文件字段说明

无标题列: 索引(从0开始)
q_no: CQA数据ID
q_concept: 问题概念
q_text: 问题主干文本
q_op1-q_op5: 选项A-E
q_ans: 正确答案
taskA_pos: 正面属性列表(换行分隔)
taskA_neg: 负面属性列表(换行分隔)
taskB: 自由形式的解释文本

引用信息

bibtex @inproceedings{aggarwaletal2021ecqa, title={{E}xplanations for {C}ommonsense{QA}: {N}ew {D}ataset and {M}odels}, author={Shourya Aggarwal and Divyanshu Mandowara and Vishwajeet Agrawal and Dinesh Khandelwal and Parag Singla and Dinesh Garg}, booktitle="Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)}", year = "2021", address = "Online", publisher = "Association for Computational Linguistics" }

搜集汇总

数据集介绍

构建方式

ECQA数据集的构建是基于对CommonsenseQA问题库的深入分析，其核心在于为每个问题提供正面和负面的属性解释，以及自由流动式的解释文本。数据集通过人工标注的方式，为每个问题的正确选项提供支持其正确性的正面属性列表，并为错误选项提供反驳的负面属性列表，同时辅以详细的解释说明，以确保数据集的质量和准确性。

特点

本数据集的主要特点是包含了对CommonsenseQA问题库中每个问题的深入解释，这些解释不仅包括对正确答案的正面属性支持，还包含了反驳错误答案的负面属性，以及自由流动式的解释文本，为理解和评估模型在常识推理任务上的性能提供了丰富的信息资源。

使用方法

使用该数据集时，首先需要将CommonsenseQA的官方训练和开发数据集下载到指定目录，然后通过提供的Python脚本将ECQA数据与CQA数据合并，生成包含完整信息的文件。用户可以根据需要选择训练、验证或测试数据，这些数据均以CSV格式提供，包含问题、选项、答案以及对应的属性和解释信息。

背景与挑战

背景概述

ECQA数据集是在ACL-IJCNLP 2021会议上提出的，旨在为常识问答（CommonsenseQA）任务提供解释性注释。该数据集由Shourya Aggarwal等研究人员创建，并得到IBM Research的支持。它基于CommonsenseQA数据集，通过提供正面的属性列表和反面的属性列表来证明正确选项的正确性，以及为每个问题提供自由流动的解释，以促进模型生成更加可解释的答案。ECQA数据集的出现对常识推理领域产生了显著影响，推动了自然语言处理领域中解释性研究的进展。

当前挑战

该数据集在构建过程中面临了多项挑战，主要包括如何确保解释的准确性和一致性，以及如何有效地将解释性注释与现有的CommonsenseQA数据集结合。此外，数据集构建者还需解决领域内的问题，例如，如何提高模型对常识知识理解的深度和广度，以及如何评估模型解释的质量和可靠性。这些挑战对于提升常识问答系统的整体性能和用户信任度至关重要。

常用场景

经典使用场景

在自然语言处理领域，尤其是常识推理的研究与应用中，ECQA数据集提供了一个独特的视角。该数据集通过提供问题的正负面属性解释以及自由流动的解释文本，使得研究者能够深入探索机器对常识性问题的理解能力。其经典使用场景在于训练和评估模型对常识问题的解释能力，进而提升模型在常识推理任务上的表现。

解决学术问题

ECQA数据集解决了学术研究中如何量化模型对常识性问题解释能力的难题。它不仅提供了问题及其选项，还提供了每个选项的正负面属性列表和问题的详细解释，这有助于研究者更全面地评估模型在理解问题背后的常识性知识方面的性能，为常识推理任务的模型评估提供了新的维度。

衍生相关工作

基于ECQA数据集，研究者已经衍生出了一系列相关工作，包括但不限于对常识推理模型的改进、对解释生成机制的研究以及对数据集本身的分析和扩展。这些工作进一步推动了常识推理领域的研究进展，为人工智能的发展提供了新的方向和思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集