Embodied Emotions Multi-Label Dataset

github2017-09-27 更新2024-05-31 收录

下载链接：

https://github.com/NLeSC/embem-ml-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含29个荷兰戏剧文本，这些文本被手动标注了来自HEEM（历史体现情感模型）的标签。数据集用于项目‘从情感挖掘到体现情感挖掘，1600-1800年荷兰舞台上的情感风格’，由VU大学、Meertens研究所和荷兰eScience中心合作完成。所有文本来自DBNL，详细信息和附加元数据可在线获取。

This dataset comprises 29 Dutch theatrical texts, which have been manually annotated with labels from HEEM (Historical Embodied Emotion Model). The dataset is utilized for the project 'From Emotion Mining to Embodied Emotion Mining: Emotional Styles on the Dutch Stage, 1600-1800', a collaborative effort by VU University, the Meertens Institute, and the Netherlands eScience Center. All texts are sourced from DBNL, with detailed information and additional metadata available online.

创建时间：

2015-06-04

原始信息汇总

Embodied Emotions Multi-Label Dataset 概述

数据集描述

名称: Embodied Emotions Multi-Label Dataset
来源: 由VU大学、Meertens研究所和荷兰eScience中心合作的项目 "从情感挖掘到挖掘具身情感，1600-1800年间荷兰舞台上的情感风格"
内容: 包含29个荷兰戏剧文本，这些文本根据HEEM（历史具身情感模型）手动标注了情感标签。
文本来源: DBNL

数据格式

存储位置: 数据位于目录 txt 和 txt-spelling-normalized。
文件结构: 每个文件的行包含句子ID、句子内容和标签，以制表符分隔。句子中的单词和标点通过空格分隔，标签通过下划线连接。
示例:
- 带标签的句子: Carel spreekt zoetjes teegens Crelis en Fobert . Emotion_Benevolence
- 无标签的句子: Maer , daerom s er recht in t Land ; Neen , Crelis , t zel er niet by blyven . None

引用信息

引用格式:

@INPROCEEDINGS{zwaan2015, author={Zwaan, {Janneke M. van der} and Leemans, Inger and Kuijpers, Erika and Maks, Isa}, booktitle={e-Science (e-Science), 2015 IEEE 11th International Conference on}, title={HEEM, a Complex Model for Mining Emotions in Historical Text}, year={2015}, pages={22-30}, doi={10.1109/eScience.2015.18}, }

搜集汇总

数据集介绍

构建方式

Embodied Emotions Multi-Label Dataset的构建基于HEEM（Historic Embodied Emotion Model）模型，该数据集包含了29部荷兰戏剧文本，这些文本经过人工标注，与HEEM模型中的标签相对应。该数据集的构建旨在服务于项目“From Sentiment Mining to Mining Embodied Emotions, Emotional styles on the Dutch stage between 1600-1800”，由VU University、Meertens Institute以及Netherlands eScience Center共同完成。

特点

该数据集的特点在于其专注于历史文本中情感的表达，涵盖了1600年至1800年间的荷兰戏剧作品。每部文本均通过人工标注，标注结果包括句子的情感标签，且每个标签均采用多标签形式。此外，数据集中的文本还进行了拼写规范化处理，以便于现代读者和研究者更好地理解和分析。

使用方法

使用Embodied Emotions Multi-Label Dataset时，用户可以在'txt'目录下找到原始文本数据，其中每行包含句子ID、句子内容以及由标签分隔的标签信息。对于没有标签的句子，则跟有'None'。若需使用拼写规范化的数据，则可在'txt-spelling-normalized'目录下查找。在使用该数据集的研究成果时，应按照提供的参考文献格式进行引用，以尊重数据集构建者的成果。

背景与挑战

背景概述

Embodied Emotions Multi-Label Dataset是一款专注于历史文本情感挖掘的学术资源，由VU University、Meertens Institute以及Netherlands eScience Center共同构建于2015年。该数据集的核心研究问题是探索并挖掘历史文本中蕴含的情感，尤其是基于HEEM（Historic Embodied Emotion Model）模型进行标注。HEEM模型的详细内容可在相关论文中查阅。该数据集来源于DBNL，包含了29篇荷兰戏剧文本，并针对项目“From Sentiment Mining to Mining Embodied Emotions, Emotional styles on the Dutch stage between 1600-1800”进行了人工标注，对历史文本情感研究领域产生了显著影响。

当前挑战

该数据集在构建过程中所遇到的挑战主要包括对历史文本的特殊语言处理，以及如何准确标注和识别文本中的多标签情感。具体而言，挑战在于对古荷兰语的词汇和语法结构的理解和标注，以及如何适应HEEM模型对情感表达的复杂分类需求。此外，数据集构建者在处理文本数据时也面临着如何保持文本原貌与实现语言规范化的平衡问题。在研究领域问题上，该数据集的挑战是如何精确地识别和分类历史文本中情感的表现形式，从而促进对历史时期情感表达风格的理解和研究。

常用场景

经典使用场景

在文本挖掘与情感分析领域，Embodied Emotions Multi-Label Dataset被广泛用于训练和评估模型对历史文本中情感表达的识别能力。该数据集包含29部荷兰戏剧文本，经人工标注，采用HEEM（历史具体情感模型）标签进行分类，为研究者在历史文献情感分析任务上提供了一个宝贵的资源。

解决学术问题

该数据集解决了传统情感分析中忽略历史语境和情感表达多样性的问题。通过引入HEEM模型，研究者可以更准确地识别和分析历史文本中的复杂情感表达，为历史学、文学及计算语言学等领域的研究提供了新的视角和方法。

衍生相关工作

基于此数据集，相关研究不仅推进了历史文本情感分析的理论与方法，还衍生出对HEEM模型的扩展研究，以及其他历史时期文献的情感挖掘工作，进一步拓宽了情感计算的应用范围和学术影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集