CEDR|情感分析数据集|社交媒体数据集

github2022-09-26 更新2024-05-31 收录

情感分析

社交媒体

下载链接：

https://github.com/sag111/CEDR

下载链接

链接失效反馈

资源简介：

CEDR是一个用于检测俄语社交媒体文本中五种基本情绪（喜悦、悲伤、愤怒、恐惧和惊讶）的数据集。数据集通过众包平台和自定义的标注流程收集和控制标注者的标记。数据来源于Live Journal社交网络、Lenta.ru在线新闻机构和Twitter微博客的帖子。

CEDR is a dataset designed for detecting five basic emotions (joy, sadness, anger, fear, and surprise) in Russian social media texts. The dataset was collected and controlled through a crowdsourcing platform and a custom annotation process. The data sources include posts from the Live Journal social network, Lenta.ru online news agency, and Twitter microblogging platform.

创建时间：

2021-07-29

原始信息汇总

数据集概述

数据集名称

CEDR（Corpus for Emotions Detecting in Russian-language text sentences of different social sources）

数据集内容

该数据集用于检测俄语文本中的五种基本情绪：喜悦、悲伤、愤怒、恐惧和惊讶。数据集包含9410个句子，这些句子来自LiveJournal、Lenta.ru和Twitter。

数据集版本

版本0.1.1，相较于前一版本，修正了重复句子的不准确性，并删除了完全或几乎完全重复的句子，同时增加了一些新例子。

数据集结构

数据集提供两种配置：

"main"：包含"text", "labels", 和 "source"特征。
"enriched"：包括所有"main"特征和"sentences"。

数据收集与标注

数据收集自LiveJournal、Lenta.ru和Twitter。标注过程通过Yandex Toloka平台进行，仅允许表现最佳的30%用户参与，每个句子至少被标注三次。

情绪标签代码

{0: "joy", 1: "sadness", 2: "surprise", 3: "fear", 4: "anger"}

数据集分布

Twitter: 3490 sentences
Lenta.ru: 2851 sentences
LiveJournal: 3069 sentences

训练与测试集

训练集：7528 examples
测试集：1882 examples

基准模型

随机模型
SVM (TF-IDF)
词典模型
我们的集成模型（基于ELMo模型和AutoML方法）

引用信息

@article{sboev2021data, title={Data-Driven Model for Emotion Detection in Russian Texts}, author={Sboev, Alexander and Naumov, Aleksandr and Rybka, Roman}, journal={Procedia Computer Science}, volume={190}, pages={637--642}, year={2021}, publisher={Elsevier} }

AI搜集汇总

数据集介绍

构建方式

CEDR数据集的构建过程采用了众包平台Yandex Toloka进行情感标注，确保了数据的多样性和广泛性。数据来源包括Live Journal社交网络的帖子、在线新闻机构Lenta.ru的文本以及Twitter的微博帖子。每个句子至少由三位标注者进行标注，最终的情感标签根据多数标注者的意见确定，确保了标注的准确性和一致性。

特点

CEDR数据集专注于俄语文本中的五种基本情感（喜悦、悲伤、愤怒、恐惧和惊讶）的检测。数据集包含来自不同社交媒体的9410个句子，每个句子都经过严格的情感标注。数据集提供了两种配置：'main'包含文本、标签和来源特征，'enriched'则进一步包含了句子的详细分析。

使用方法

CEDR数据集可通过Hugging Face平台轻松加载，使用`datasets`库中的`load_dataset`函数即可获取训练和测试数据。数据集支持多种机器学习模型的训练和评估，包括SVM、基于词典的方法以及集成学习方法。用户可以通过提供的Jupyter笔记本进行基线模型的评估和比较，进一步探索情感检测模型的性能。

背景与挑战

背景概述

CEDR数据集是一个专注于俄语文本情感检测的语料库，由Alexander Sboev、Aleksandr Naumov和Roman Rybka等研究人员于2021年创建。该数据集旨在解决俄语文本中五种基本情感（喜悦、悲伤、愤怒、恐惧和惊讶）的自动检测问题。数据来源于多个社交媒体平台，包括Live Journal、Lenta.ru和Twitter，通过众包平台Yandex Toloka进行标注。CEDR数据集的发布为俄语自然语言处理领域的情感分析提供了重要的数据支持，推动了相关模型的研究与应用。

当前挑战

CEDR数据集在构建和应用过程中面临多重挑战。首先，情感标注的主观性使得标注一致性难以保证，尽管通过众包平台筛选了高质量的标注者，但情感表达的多样性和复杂性仍可能导致标注偏差。其次，俄语文本的语法结构和词汇丰富性增加了情感检测的难度，尤其是在处理多义词和语境依赖的情感表达时。此外，数据集的构建过程中，重复句子的剔除和标注质量控制也耗费了大量资源。尽管数据集提供了丰富的标注信息，但在实际应用中，如何有效利用这些信息提升模型的泛化能力仍是一个亟待解决的问题。

常用场景

经典使用场景

CEDR数据集在情感分析领域具有广泛的应用，尤其是在俄语文本的情感检测中。研究者们利用该数据集训练和评估情感分类模型，以识别文本中表达的五种基本情感：喜悦、悲伤、愤怒、恐惧和惊讶。通过结合来自不同社交平台（如Live Journal、Lenta.ru和Twitter）的文本数据，CEDR为情感分析模型的开发提供了多样化的语料库。

衍生相关工作

基于CEDR数据集，研究者们开发了多种情感分类模型，如基于SVM和TF-IDF的传统机器学习方法，以及基于ELMo预训练模型的深度学习模型。这些工作不仅提升了情感检测的准确性，还为俄语自然语言处理领域提供了新的研究思路。此外，CEDR数据集还促进了跨语言情感分析的研究，推动了多语言情感检测技术的发展。

数据集最近研究

最新研究方向

近年来，随着自然语言处理技术的飞速发展，情感分析在俄语文本中的应用逐渐成为研究热点。CEDR数据集作为俄语情感检测领域的重要资源，其最新研究方向主要集中在多源数据的情感标注与模型优化上。通过对来自Live Journal、Lenta.ru和Twitter等社交平台的文本进行精细标注，研究者们能够更准确地捕捉俄语文本中的情感变化。此外，基于预训练语言模型（如ELMo）的集成学习方法在情感分类任务中表现出色，显著提升了情感检测的准确性和鲁棒性。这些研究不仅推动了俄语情感分析技术的发展，也为跨语言情感分析提供了宝贵的参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

威廉王岛—全球变化数据大百科辞条

威廉王岛（King William Island）位于北美洲，北极圈内，属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间，距离维多利亚岛85 km；北面距离威尔士亲王岛155 km；南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望，最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯（James Ross）发现，以当时在位的英国君主威廉四世的名字命名。行政区划上，威廉王岛隶属于加拿大努纳武特（Nunavut）地区。它的地理位置为：69&deg54′22″N - 68&deg27′12″N，99&deg32′48″W - 95&deg09′25″W。威廉王岛总面积13259.59 km&sup2，海岸线总长1555.35 km。岛屿地势平坦，表面散布着无数的小湖。位于岛屿东南侧的约阿港（Gjoa Haven）是岛上最主要的居民点。在约阿港东北，有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆（岛）岸线数据集（2015），结合加拿大相关地图完成。数据集由24个数据文件组成，以.kmz和.shp数据格式存储，数据量2.98 MB（压缩成3个数据文件，数据量2.06 MB）。

国家对地观测科学数据中心收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录