CEDR

github2022-09-26 更新2024-05-31 收录

下载链接：

https://github.com/sag111/CEDR

下载链接

链接失效反馈

官方服务：

资源简介：

CEDR是一个用于检测俄语社交媒体文本中五种基本情绪（喜悦、悲伤、愤怒、恐惧和惊讶）的数据集。数据集通过众包平台和自定义的标注流程收集和控制标注者的标记。数据来源于Live Journal社交网络、Lenta.ru在线新闻机构和Twitter微博客的帖子。

CEDR is a dataset designed for detecting five basic emotions (joy, sadness, anger, fear, and surprise) in Russian social media texts. The dataset was collected and controlled through a crowdsourcing platform and a custom annotation process. The data sources include posts from the Live Journal social network, Lenta.ru online news agency, and Twitter microblogging platform.

创建时间：

2021-07-29

原始信息汇总

数据集概述

数据集名称

CEDR（Corpus for Emotions Detecting in Russian-language text sentences of different social sources）

数据集内容

该数据集用于检测俄语文本中的五种基本情绪：喜悦、悲伤、愤怒、恐惧和惊讶。数据集包含9410个句子，这些句子来自LiveJournal、Lenta.ru和Twitter。

数据集版本

版本0.1.1，相较于前一版本，修正了重复句子的不准确性，并删除了完全或几乎完全重复的句子，同时增加了一些新例子。

数据集结构

数据集提供两种配置：

"main"：包含"text", "labels", 和 "source"特征。
"enriched"：包括所有"main"特征和"sentences"。

数据收集与标注

数据收集自LiveJournal、Lenta.ru和Twitter。标注过程通过Yandex Toloka平台进行，仅允许表现最佳的30%用户参与，每个句子至少被标注三次。

情绪标签代码

{0: "joy", 1: "sadness", 2: "surprise", 3: "fear", 4: "anger"}

数据集分布

Twitter: 3490 sentences
Lenta.ru: 2851 sentences
LiveJournal: 3069 sentences

训练与测试集

训练集：7528 examples
测试集：1882 examples

基准模型

随机模型
SVM (TF-IDF)
词典模型
我们的集成模型（基于ELMo模型和AutoML方法）

引用信息

@article{sboev2021data, title={Data-Driven Model for Emotion Detection in Russian Texts}, author={Sboev, Alexander and Naumov, Aleksandr and Rybka, Roman}, journal={Procedia Computer Science}, volume={190}, pages={637--642}, year={2021}, publisher={Elsevier} }

搜集汇总

数据集介绍

构建方式

CEDR数据集的构建过程采用了众包平台Yandex Toloka进行情感标注，确保了数据的多样性和广泛性。数据来源包括Live Journal社交网络的帖子、在线新闻机构Lenta.ru的文本以及Twitter的微博帖子。每个句子至少由三位标注者进行标注，最终的情感标签根据多数标注者的意见确定，确保了标注的准确性和一致性。

特点

CEDR数据集专注于俄语文本中的五种基本情感（喜悦、悲伤、愤怒、恐惧和惊讶）的检测。数据集包含来自不同社交媒体的9410个句子，每个句子都经过严格的情感标注。数据集提供了两种配置：'main'包含文本、标签和来源特征，'enriched'则进一步包含了句子的详细分析。

使用方法

CEDR数据集可通过Hugging Face平台轻松加载，使用`datasets`库中的`load_dataset`函数即可获取训练和测试数据。数据集支持多种机器学习模型的训练和评估，包括SVM、基于词典的方法以及集成学习方法。用户可以通过提供的Jupyter笔记本进行基线模型的评估和比较，进一步探索情感检测模型的性能。

背景与挑战

背景概述

CEDR数据集是一个专注于俄语文本情感检测的语料库，由Alexander Sboev、Aleksandr Naumov和Roman Rybka等研究人员于2021年创建。该数据集旨在解决俄语文本中五种基本情感（喜悦、悲伤、愤怒、恐惧和惊讶）的自动检测问题。数据来源于多个社交媒体平台，包括Live Journal、Lenta.ru和Twitter，通过众包平台Yandex Toloka进行标注。CEDR数据集的发布为俄语自然语言处理领域的情感分析提供了重要的数据支持，推动了相关模型的研究与应用。

当前挑战

CEDR数据集在构建和应用过程中面临多重挑战。首先，情感标注的主观性使得标注一致性难以保证，尽管通过众包平台筛选了高质量的标注者，但情感表达的多样性和复杂性仍可能导致标注偏差。其次，俄语文本的语法结构和词汇丰富性增加了情感检测的难度，尤其是在处理多义词和语境依赖的情感表达时。此外，数据集的构建过程中，重复句子的剔除和标注质量控制也耗费了大量资源。尽管数据集提供了丰富的标注信息，但在实际应用中，如何有效利用这些信息提升模型的泛化能力仍是一个亟待解决的问题。

常用场景

经典使用场景

CEDR数据集在情感分析领域具有广泛的应用，尤其是在俄语文本的情感检测中。研究者们利用该数据集训练和评估情感分类模型，以识别文本中表达的五种基本情感：喜悦、悲伤、愤怒、恐惧和惊讶。通过结合来自不同社交平台（如Live Journal、Lenta.ru和Twitter）的文本数据，CEDR为情感分析模型的开发提供了多样化的语料库。

衍生相关工作

基于CEDR数据集，研究者们开发了多种情感分类模型，如基于SVM和TF-IDF的传统机器学习方法，以及基于ELMo预训练模型的深度学习模型。这些工作不仅提升了情感检测的准确性，还为俄语自然语言处理领域提供了新的研究思路。此外，CEDR数据集还促进了跨语言情感分析的研究，推动了多语言情感检测技术的发展。

数据集最近研究