five

ECQA|常识问答数据集|解释生成数据集

收藏
github2021-08-01 更新2025-02-08 收录
常识问答
解释生成
下载链接:
https://github.com/dair-iitd/ECQA-Dataset
下载链接
链接失效反馈
资源简介:
ECQA数据集(Explanation CommonsenseQA的缩写)源自CommonsenseQA。经过人工标注后,它包含了从CommonsenseQA中提取的11K问答对的正向和负向属性,以及英文解释。其目标是为CommonsenseQA中的基于知识的问答任务提供解释,深入理解与各种选项相关的通用属性。

The ECQA dataset (an abbreviation for Explanation CommonsenseQA) originates from CommonsenseQA. After being manually annotated, it encompasses 11K question-answer pairs with their positive and negative attributes extracted from CommonsenseQA, along with English explanations. Its aim is to provide explanations for knowledge-based question-answering tasks within CommonsenseQA, delving into the general attributes related to various options.
提供机构:
IIT Delhi et al.
创建时间:
2021-08-01
原始信息汇总

ECQA-Dataset 数据集概述

数据集基本信息

  • 名称: Explanations for CommonsenseQA (ECQA)
  • 来源论文: Explanations for CommonsenseQA: New Dataset and Models (ACL-IJCNLP 2021)
  • 论文地址: https://aclanthology.org/2021.acl-long.238/
  • 原始数据来源: CommonsenseQA (arXiv:1811.00937 [cs.CL])
  • 许可证: Community Data License Agreements Sharing license 1.0

数据集内容

  • 核心数据文件: ecqa.jsonl

    • 格式: 每行一个JSON对象
    • 字段说明:
      • id: 字符串类型,对应CQA数据的样本ID
      • positives: 字符串列表,正确选项的正面属性
      • negatives: 字符串列表,错误选项的负面属性
      • explanation: 字符串类型,自由形式的解释文本
  • 数据划分文件 (位于author_split目录):

    • train_ids.txt: 训练集ID列表
    • val_ids.txt: 验证集ID列表
    • test_ids.txt: 测试集ID列表

数据整合说明

  • 依赖数据: CommonsenseQA官方数据文件

    • 必须下载文件: train_rand_split.jsonldev_rand_split.jsonl
    • 下载地址: https://www.tau-nlp.org/commonsenseqa
  • 生成完整数据的步骤:

    1. 创建cqa目录并放入CommonsenseQA数据文件
    2. 安装依赖库: jsonpandas
    3. 运行generate_data.py脚本
  • 生成文件:

    • cqa_data.csv: 完整数据
    • cqa_data_train.csv: 训练集
    • cqa_data_val.csv: 验证集
    • cqa_data_test.csv: 测试集

生成文件字段说明

  1. 无标题列: 索引(从0开始)
  2. q_no: CQA数据ID
  3. q_concept: 问题概念
  4. q_text: 问题主干文本
  5. q_op1-q_op5: 选项A-E
  6. q_ans: 正确答案
  7. taskA_pos: 正面属性列表(换行分隔)
  8. taskA_neg: 负面属性列表(换行分隔)
  9. taskB: 自由形式的解释文本

引用信息

bibtex @inproceedings{aggarwaletal2021ecqa, title={{E}xplanations for {C}ommonsense{QA}: {N}ew {D}ataset and {M}odels}, author={Shourya Aggarwal and Divyanshu Mandowara and Vishwajeet Agrawal and Dinesh Khandelwal and Parag Singla and Dinesh Garg}, booktitle="Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)}", year = "2021", address = "Online", publisher = "Association for Computational Linguistics" }

AI搜集汇总
数据集介绍
main_image_url
构建方式
ECQA数据集的构建是基于对CommonsenseQA问题库的深入分析,其核心在于为每个问题提供正面和负面的属性解释,以及自由流动式的解释文本。数据集通过人工标注的方式,为每个问题的正确选项提供支持其正确性的正面属性列表,并为错误选项提供反驳的负面属性列表,同时辅以详细的解释说明,以确保数据集的质量和准确性。
特点
本数据集的主要特点是包含了对CommonsenseQA问题库中每个问题的深入解释,这些解释不仅包括对正确答案的正面属性支持,还包含了反驳错误答案的负面属性,以及自由流动式的解释文本,为理解和评估模型在常识推理任务上的性能提供了丰富的信息资源。
使用方法
使用该数据集时,首先需要将CommonsenseQA的官方训练和开发数据集下载到指定目录,然后通过提供的Python脚本将ECQA数据与CQA数据合并,生成包含完整信息的文件。用户可以根据需要选择训练、验证或测试数据,这些数据均以CSV格式提供,包含问题、选项、答案以及对应的属性和解释信息。
背景与挑战
背景概述
ECQA数据集是在ACL-IJCNLP 2021会议上提出的,旨在为常识问答(CommonsenseQA)任务提供解释性注释。该数据集由Shourya Aggarwal等研究人员创建,并得到IBM Research的支持。它基于CommonsenseQA数据集,通过提供正面的属性列表和反面的属性列表来证明正确选项的正确性,以及为每个问题提供自由流动的解释,以促进模型生成更加可解释的答案。ECQA数据集的出现对常识推理领域产生了显著影响,推动了自然语言处理领域中解释性研究的进展。
当前挑战
该数据集在构建过程中面临了多项挑战,主要包括如何确保解释的准确性和一致性,以及如何有效地将解释性注释与现有的CommonsenseQA数据集结合。此外,数据集构建者还需解决领域内的问题,例如,如何提高模型对常识知识理解的深度和广度,以及如何评估模型解释的质量和可靠性。这些挑战对于提升常识问答系统的整体性能和用户信任度至关重要。
常用场景
经典使用场景
在自然语言处理领域,尤其是常识推理的研究与应用中,ECQA数据集提供了一个独特的视角。该数据集通过提供问题的正负面属性解释以及自由流动的解释文本,使得研究者能够深入探索机器对常识性问题的理解能力。其经典使用场景在于训练和评估模型对常识问题的解释能力,进而提升模型在常识推理任务上的表现。
解决学术问题
ECQA数据集解决了学术研究中如何量化模型对常识性问题解释能力的难题。它不仅提供了问题及其选项,还提供了每个选项的正负面属性列表和问题的详细解释,这有助于研究者更全面地评估模型在理解问题背后的常识性知识方面的性能,为常识推理任务的模型评估提供了新的维度。
衍生相关工作
基于ECQA数据集,研究者已经衍生出了一系列相关工作,包括但不限于对常识推理模型的改进、对解释生成机制的研究以及对数据集本身的分析和扩展。这些工作进一步推动了常识推理领域的研究进展,为人工智能的发展提供了新的方向和思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录