ECQA|常识问答数据集|解释生成数据集
收藏ECQA-Dataset 数据集概述
数据集基本信息
- 名称: Explanations for CommonsenseQA (ECQA)
- 来源论文: Explanations for CommonsenseQA: New Dataset and Models (ACL-IJCNLP 2021)
- 论文地址: https://aclanthology.org/2021.acl-long.238/
- 原始数据来源: CommonsenseQA (arXiv:1811.00937 [cs.CL])
- 许可证: Community Data License Agreements Sharing license 1.0
数据集内容
-
核心数据文件:
ecqa.jsonl
- 格式: 每行一个JSON对象
- 字段说明:
id
: 字符串类型,对应CQA数据的样本IDpositives
: 字符串列表,正确选项的正面属性negatives
: 字符串列表,错误选项的负面属性explanation
: 字符串类型,自由形式的解释文本
-
数据划分文件 (位于
author_split
目录):train_ids.txt
: 训练集ID列表val_ids.txt
: 验证集ID列表test_ids.txt
: 测试集ID列表
数据整合说明
-
依赖数据: CommonsenseQA官方数据文件
- 必须下载文件:
train_rand_split.jsonl
和dev_rand_split.jsonl
- 下载地址: https://www.tau-nlp.org/commonsenseqa
- 必须下载文件:
-
生成完整数据的步骤:
- 创建
cqa
目录并放入CommonsenseQA数据文件 - 安装依赖库:
json
和pandas
- 运行
generate_data.py
脚本
- 创建
-
生成文件:
cqa_data.csv
: 完整数据cqa_data_train.csv
: 训练集cqa_data_val.csv
: 验证集cqa_data_test.csv
: 测试集
生成文件字段说明
- 无标题列: 索引(从0开始)
- q_no: CQA数据ID
- q_concept: 问题概念
- q_text: 问题主干文本
- q_op1-q_op5: 选项A-E
- q_ans: 正确答案
- taskA_pos: 正面属性列表(换行分隔)
- taskA_neg: 负面属性列表(换行分隔)
- taskB: 自由形式的解释文本
引用信息
bibtex @inproceedings{aggarwaletal2021ecqa, title={{E}xplanations for {C}ommonsense{QA}: {N}ew {D}ataset and {M}odels}, author={Shourya Aggarwal and Divyanshu Mandowara and Vishwajeet Agrawal and Dinesh Khandelwal and Parag Singla and Dinesh Garg}, booktitle="Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)}", year = "2021", address = "Online", publisher = "Association for Computational Linguistics" }

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录