all_data_pair(experiencers)

github2022-12-12 更新2024-05-31 收录

下载链接：

https://github.com/qianqiangediao/ECPE_data

下载链接

链接失效反馈

官方服务：

资源简介：

我们为ECPE基准数据集标注了体验者信息，更新后的数据集名为“all_data_pair(experiencers)”，提供json和txt版本。JSON格式为结构化表示，包含体验者及从ATOMIC检索到的对应每个子句的常见知识（Xreact和Xwant）。读者可以直接基于此语料库实现表达者特定和知识特定的情感原因提取。

We have annotated experiencer information for the ECPE benchmark dataset, and the updated dataset is named 'all_data_pair(experiencers)', available in both JSON and TXT formats. The JSON format provides a structured representation, including experiencers and common knowledge (Xreact and Xwant) retrieved from ATOMIC for each clause. Readers can directly utilize this corpus to implement experiencer-specific and knowledge-specific emotion cause extraction.

创建时间：

2022-07-20

原始信息汇总

数据集概述

数据集名称

"all_data_pair(experiencers)"

数据集格式

JSON版本
TXT版本

数据集内容

包含experiencers信息
包含从ATOMIC获取的对应每个clause的common knowledge (Xreact和Xwant)

相关文件介绍

coreference_data
- 提供使用Stanford University anaphora Resolution Tool进行指代消解的结果。
commonsense_data
- 包含为ECPE数据集每个clause检索的commonsense knowledge，存储于ecpe_data_commonsense.pkl。
- 缺少的文件ATOMIC_Chinese.tsv需从链接(https://github.com/XiaoMi/C3KG)下载。
graph_build.py
- 用于构建experiencer-driven graph和knowledge-aware graph。
- 图构建过程需要使用coreference data和通过工具(http://ospm9rsnd.bkt.clouddn.com/model/ltp_data_v3.4.0.zip)进行句法分析的结果。
knowledge_extractor.py
- 用于从ATOMIC检索commonsense knowledges。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对基准数据集的情感体验者信息进行标注，命名为“all_data_pair(experiencers)”。数据集提供了JSON和TXT两种格式，其中JSON格式以结构化方式呈现，包含每个子句的情感体验者及其对应的常识知识（Xreact和Xwant），这些知识来源于ATOMIC知识库。通过使用斯坦福大学的指代消解工具对数据进行处理，并结合句法分析工具构建了体验者驱动图和知识感知图。

特点

该数据集的特点在于其丰富的常识知识集成和情感体验者的详细标注。每个子句不仅标注了情感体验者，还关联了从ATOMIC知识库中检索到的相关常识知识，为情感原因提取提供了多维度的信息支持。数据集的JSON格式便于直接进行情感体验者特定和知识特定的情感原因提取分析，具有较强的结构化和可扩展性。

使用方法

使用该数据集时，用户可以通过加载JSON或TXT格式的文件，直接获取情感体验者及其相关的常识知识。数据集中的核心指代数据和常识知识数据分别存储在“coreference_data”和“commonsense_data”目录中，用户可根据需求调用相应的工具进行进一步分析。此外，数据集提供了图形构建脚本和知识提取脚本，用户可通过这些工具构建体验者驱动图和知识感知图，进一步挖掘情感原因的深层次关联。

背景与挑战

背景概述

all_data_pair(experiencers)数据集由NUSTM团队于近年创建，旨在为情感原因提取（ECPE）任务提供丰富的标注信息。该数据集的核心研究问题在于如何通过引入经验者信息和常识知识来增强情感原因提取的准确性。数据集基于ECPE基准数据集，通过标注经验者信息并结合ATOMIC知识库中的常识知识（如Xreact和Xwant），为研究者提供了一个结构化的情感原因分析框架。该数据集的发布显著推动了情感计算领域的发展，特别是在情感原因提取和多模态知识融合方面。

当前挑战

all_data_pair(experiencers)数据集在构建过程中面临多重挑战。首先，情感原因提取任务本身具有高度复杂性，尤其是在多句语境下，如何准确识别经验者及其情感触发因素成为一大难题。其次，数据集的构建依赖于外部工具和知识库，如Stanford CoreNLP的指代消解工具和ATOMIC知识库，这些工具的集成与数据对齐过程增加了技术复杂度。此外，常识知识的检索与融合需要精细的设计，以确保知识的一致性和有效性。这些挑战不仅体现在数据处理层面，也对模型的训练和推理提出了更高的要求。

常用场景

经典使用场景

在情感计算领域，all_data_pair(experiencers)数据集被广泛用于情感原因提取任务。通过标注体验者信息并结合常识知识，该数据集为研究者提供了一个结构化的情感分析框架，使得情感原因的识别更加精确和高效。特别是在多轮对话和复杂文本中，该数据集能够帮助模型更好地理解情感表达的深层次原因。

解决学术问题

all_data_pair(experiencers)数据集解决了情感原因提取中的关键问题，即如何准确识别情感表达的体验者及其背后的常识知识。通过引入体验者驱动的图和知识感知图，该数据集为情感原因提取提供了新的视角，显著提升了情感分析的准确性和解释性。这一突破为情感计算领域的进一步研究奠定了坚实基础。

衍生相关工作

基于all_data_pair(experiencers)数据集，研究者们开发了多种情感原因提取模型和算法。例如，体验者驱动的图和知识感知图的构建方法被广泛应用于情感分析任务中，显著提升了模型的性能。此外，该数据集还催生了一系列关于情感常识知识库的研究，为情感计算领域的知识表示和推理提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集