ChildTale-A

github2024-01-18 更新2024-05-31 收录

下载链接：

https://github.com/nicolas-werner/Automatisierte-Emotionsannotation

下载链接

链接失效反馈

官方服务：

资源简介：

ChildTale-A数据集是一个从《格林童话》中收集的童话文本集合，专门为文本中情感的研究和分析而编制。该数据集包含超过5000个手动标注的句子，详细记录了童话中的情感内容，包括情感效价（-3到+3的尺度）和唤醒度（1到5的尺度），每个句子都根据其中表达的情感的程度和类型进行了评估。

The ChildTale-A dataset is a collection of fairy tale texts gathered from 'Grimm's Fairy Tales', specifically compiled for the research and analysis of emotions in text. This dataset contains over 5,000 manually annotated sentences, meticulously documenting the emotional content within the tales, including emotional valence (on a scale from -3 to +3) and arousal (on a scale from 1 to 5). Each sentence has been evaluated based on the intensity and type of emotion expressed.

创建时间：

2023-12-12

原始信息汇总

数据集概述

数据集名称

名称: ChildTale-A

数据集描述

内容: 该数据集是基于《格林童话》的故事文本集合，专门用于文本中情感内容的调查和分析。
规模: 包含超过5,000个手动标注的句子，详细记录了童话中的情感内容。
标注细节: 每个句子根据表达情感的程度和类型进行评分，包括情感效价（范围-3至+3）和唤醒度（范围1至5）。

数据集特征

文本类型: 童话
语言: 德语
来源: ChildTale-A Corpus，可在Zenodo上获取。

数据集使用

目的: 使用GPT-4模型自动标注童话文本中的情感内容。
评估标准: 评估模型在准确性、一致性和与手动标注金标准的一致性。同时分析模型捕捉情感细微差别和微妙表达的能力。
实验设计: 区分Zero-Shot Prompting和Few-Shot Prompting的性能。

示例

文本摘录: “Die Frau hatte zwei Töchter mit ins Haus gebracht, die schön und weiß von Angesicht waren, aber garstig und schwarz von Herzen.”
标注示例:
- 情感效价: -2 (负面)
- 唤醒度: 2 (较平静)

搜集汇总

数据集介绍

构建方式

ChildTale-A数据集基于格林兄弟的《儿童与家庭童话集》构建，专门用于文本中情感的研究与分析。该数据集包含超过5,000个手动标注的句子，每个句子均详细记录了情感内容。标注过程涉及情感效价（范围从-3到+3）和情感唤醒度（范围从1到5）的评估，确保了对情感表达程度和类型的精确捕捉。数据集的构建旨在为情感分析提供高质量的标注数据，支持对文本中情感表达的深入理解。

特点

ChildTale-A数据集以其丰富的情感标注和高质量的文本内容著称。数据集涵盖了德语童话文本，每个句子均经过细致的情感标注，包括情感效价和唤醒度。这种双重标注机制使得数据集在情感分析领域具有独特的价值，能够支持对情感表达的细致研究。此外，数据集的文本来源为经典的格林童话，确保了文本的多样性和代表性，为情感分析提供了广泛的语料基础。

使用方法

ChildTale-A数据集的使用主要围绕情感分析任务展开。研究者可以通过该数据集进行情感效价和唤醒度的分析，探索文本中情感表达的规律。数据集支持多种分析方法，包括基于规则的方法和机器学习模型的应用。此外，数据集还可用于评估和比较不同情感分析模型的性能，特别是在处理德语文本时的表现。通过结合GPT-4等先进语言模型，研究者可以进一步探索自动化情感标注的潜力，提升情感分析的效率和准确性。

背景与挑战

背景概述

ChildTale-A数据集由Lüdtke和Herrmann于2023年创建，旨在深入分析文本中编码的情感内容。该数据集基于格林兄弟的《儿童与家庭童话集》第七版，包含了超过5000个手动标注的句子，详细记录了每个句子中的情感效价（Valenz）和唤醒度（Arousal）。情感效价采用-3至+3的标度，而唤醒度则采用1至5的标度。这一数据集不仅为情感分析研究提供了丰富的语料资源，还推动了自然语言处理领域在情感识别方面的技术进步。其发布在Zenodo平台上，便于全球研究者访问和使用。

当前挑战

ChildTale-A数据集在构建和应用过程中面临多重挑战。首先，情感标注的复杂性要求标注者具备高度的语言学知识和情感理解能力，以确保标注的准确性和一致性。其次，尽管数据集已经过手动标注，但在自动化情感标注任务中，如何确保模型能够准确捕捉文本中的情感细微差别仍是一个难题。特别是在处理童话文本时，情感表达往往具有隐喻性和隐含性，这对模型的语义理解能力提出了更高要求。此外，评估模型在不同提示策略（如Zero-Shot Prompting和Few-Shot Prompting）下的表现，也是当前研究中的一个重要挑战。

常用场景

经典使用场景

ChildTale-A数据集广泛应用于情感计算和自然语言处理领域，特别是在情感标注和情感分析任务中。研究者利用该数据集对童话文本中的情感内容进行自动化标注，探索情感在文本中的表达方式和变化规律。通过分析情感价和唤醒度，该数据集为情感计算模型提供了丰富的训练和测试数据。

实际应用

在实际应用中，ChildTale-A数据集被用于开发情感分析工具和系统，这些工具可以应用于教育、心理学和文学研究等领域。例如，教育工作者可以利用该数据集分析童话中的情感内容，设计更具情感教育意义的课程。心理学家则可以通过分析情感价和唤醒度，研究情感对儿童心理发展的影响。

衍生相关工作

ChildTale-A数据集催生了一系列相关研究，特别是在情感计算和自然语言处理领域。例如，研究者利用该数据集开发了基于GPT-4的情感标注模型，探索了零样本提示和少样本提示在情感标注中的效果。此外，该数据集还被用于比较不同情感分析模型的性能，推动了情感计算技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集