e-CARE
收藏github2022-12-08 更新2024-05-31 收录
下载链接:
https://github.com/Waste-Wood/e-CARE
下载链接
链接失效反馈官方服务:
资源简介:
e-CARE是一个包含超过20,000个因果推理问题的人工标注可解释因果推理数据集,每个问题都附有自然语言形式的因果解释。该数据集旨在帮助理解和评估因果推理能力。
e-CARE is an annotated explainable causal reasoning dataset comprising over 20,000 causal reasoning questions, each accompanied by causal explanations in natural language. This dataset is designed to aid in the understanding and evaluation of causal reasoning capabilities.
创建时间:
2022-03-04
原始信息汇总
数据集概述
1. 数据集简介
- 名称: e-CARE (Explainable CAusal REasoning)
- 目的: 探索可解释的因果推理,提供超过20K因果推理问题及其自然语言形式的解释。
2. 数据集任务
- Causal Reasoning Task: 模型需从两个候选假设中选择与给定前提形成有效因果事实的正确假设。数据格式为JSONL,存储在
./dataset/Causal_Reasoning/train.jsonl和./dataset/Causal_Reasoning/dev.jsonl中。 - Explanation Generation Task: 模型需为给定的因果事实生成解释。数据格式为JSONL,存储在
./dataset/Explanation_Generation/train.jsonl和./dataset/Explanation_Generation/dev.jsonl中。
3. 数据集统计
- 问题类型分布:
- 原因问题: 训练集7,617个,测试集2,176个,验证集1,088个,总计10,881个。
- 效果问题: 训练集7,311个,测试集2,088个,验证集1,044个,总计10,443个。
- 总计: 训练集14,928个,测试集4,264个,验证集2,132个,总计21,324个。
- 标签分布:
- 训练集: 0标签7,463个,1标签7,465个。
- 测试集: 0标签2,132个,1标签2,132个。
- 验证集: 0标签1,066个,1标签1,066个。
- 平均长度:
- 概念解释: 总体7.63字,训练集7.62字,测试集7.60字,验证集7.77字。
- 原因: 总体8.51字,训练集8.51字,测试集8.47字,验证集8.56字。
- 效果: 总体8.34字,训练集8.33字,测试集8.38字,验证集8.31字。
- 错误假设: 总体8.14字,训练集8.14字,测试集8.10字,验证集8.21字。
4. 数据集下载与模型评估
- 数据集下载: 完整训练和验证集可从e-CARE下载。
- 模型评估: 提供两个官方评估脚本
causal_reasoning.py和conceptual_explanation_generation.py,用于评估因果推理和概念解释生成任务。
5. 基线结果
- Causal Reasoning Task:
- 模型表现(验证集/测试集):
- Bart-base: 73.03/71.65
- Bert-base-cased: 75.47/75.38
- RoBERTa-base: 70.64/70.73
- XLNet-base-cased: 75.61/74.58
- ALBERT: 73.97/74.60
- GPT: 67.59/68.15
- GPT-2: 70.36/69.51
- 模型表现(验证集/测试集):
- Explanation Generation Task:
- 模型表现(BLEU和Rouge指标):
- GPT-2: BLEU-1 55.17, BLEU-2 33.29, BLEU-3 23.00, BLEU-4 18.79, Rouge-1 33.17, Rouge-2 10.23, Rouge-l 32.05, PPL 6.87
- RNN: BLEU-1 43.25, BLEU-2 18.20, BLEU-3 6.76, BLEU-4 4.16, Rouge-1 20.79, Rouge-2 2.20, Rouge-l 20.85, PPL 33.84
- Multi-Task: BLEU-1 56.32, BLEU-2 35.96, BLEU-3 26.47, BLEU-4 22.36, Rouge-1 35.70, Rouge-2 12.57, Rouge-l 34.88, PPL 6.64
- 模型表现(BLEU和Rouge指标):
6. 未来研究方向
- 作为因果知识库: e-CARE可作为资源提升模型在其他因果相关任务上的表现。
- 归因推理: 强调概念解释在学习因果关系中的重要性,支持未来研究向更强的类人因果推理系统发展。
搜集汇总
数据集介绍

构建方式
e-CARE数据集的构建基于人工标注,旨在探索可解释的因果推理。该数据集包含超过20,000个因果推理问题,每个问题均附带自然语言形式的因果解释。数据集的构建过程通过精心设计的标注流程,确保每个实例的因果关系和解释均经过严格验证,从而为自然语言处理领域的因果推理研究提供了高质量的基础数据。
特点
e-CARE数据集的特点在于其丰富的因果推理问题和详细的自然语言解释。每个实例包含一个前提、两个假设(一个正确,一个错误)以及一个概念性解释,涵盖了因果关系中的“原因”和“结果”两种类型。此外,数据集的统计信息展示了问题类型、标签分布以及文本长度的详细情况,为研究者提供了全面的数据支持。
使用方法
e-CARE数据集的使用方法主要包括两个任务:因果推理任务和解释生成任务。在因果推理任务中,模型需要从两个假设中选择一个与前提形成有效因果关系的假设;在解释生成任务中,模型需为给定的因果关系生成自然语言解释。数据集以JSON格式存储,研究者可通过官方提供的评估脚本对模型性能进行测试,并提交结果至测试集以获取最终性能评估。
背景与挑战
背景概述
e-CARE数据集由李杜等人于2022年提出,旨在推动自然语言处理(NLP)领域中的可解释因果推理研究。该数据集包含超过20,000个因果推理问题,并附有自然语言形式的因果解释。e-CARE的创建旨在解决现有因果推理数据集中缺乏解释性信息的问题,通过提供详细的因果解释,帮助模型更深入地理解因果关系。该数据集不仅支持因果推理任务,还引入了因果解释生成任务,进一步推动了可解释人工智能的发展。e-CARE的发布为因果推理领域的研究提供了新的基准,并在多个相关任务中展示了其潜在的应用价值。
当前挑战
e-CARE数据集面临的挑战主要体现在两个方面。首先,因果推理任务要求模型从两个候选假设中选择一个与前提形成有效因果事实的假设,这对模型的推理能力和因果理解提出了较高要求。其次,因果解释生成任务要求模型生成自由文本形式的解释,这对自然语言生成模型的表达能力提出了挑战。此外,数据集的构建过程中,如何确保解释的准确性和一致性也是一个重要挑战。尽管e-CARE在多个任务中展示了其潜力,但如何进一步提升模型在复杂因果场景中的表现,仍然是一个亟待解决的问题。
常用场景
经典使用场景
e-CARE数据集在自然语言处理领域中被广泛用于因果推理任务。通过提供丰富的因果问题和自然语言解释,该数据集能够帮助研究人员开发和评估模型在理解和解释因果关系方面的能力。特别是在多选因果推理任务中,模型需要从两个候选假设中选择一个与前提形成有效因果事实的假设,这一任务直接考验了模型对因果关系的理解深度。
解决学术问题
e-CARE数据集解决了自然语言处理中因果推理的挑战,特别是在缺乏明确因果解释的情况下。通过提供详细的自然语言解释,该数据集不仅帮助模型理解因果关系,还促进了模型生成因果解释的能力。这对于提升模型在复杂因果推理任务中的表现具有重要意义,尤其是在需要解释和验证因果关系的场景中。
衍生相关工作
e-CARE数据集衍生了许多相关研究工作,特别是在因果推理和解释生成领域。例如,研究人员利用该数据集开发了基于BERT和GPT-2的模型,这些模型在因果推理任务中表现出色。此外,该数据集还被用于迁移学习,通过在其他因果相关任务(如事件故事线和常识推理)中微调模型,进一步提升了模型的性能。这些工作不仅验证了e-CARE数据集的有效性,还推动了因果推理领域的研究进展。
以上内容由遇见数据集搜集并总结生成



