CEDR|情感分析数据集|社交媒体数据集
收藏数据集概述
数据集名称
CEDR(Corpus for Emotions Detecting in Russian-language text sentences of different social sources)
数据集内容
该数据集用于检测俄语文本中的五种基本情绪:喜悦、悲伤、愤怒、恐惧和惊讶。数据集包含9410个句子,这些句子来自LiveJournal、Lenta.ru和Twitter。
数据集版本
版本0.1.1,相较于前一版本,修正了重复句子的不准确性,并删除了完全或几乎完全重复的句子,同时增加了一些新例子。
数据集结构
数据集提供两种配置:
- "main":包含"text", "labels", 和 "source"特征。
- "enriched":包括所有"main"特征和"sentences"。
数据收集与标注
数据收集自LiveJournal、Lenta.ru和Twitter。标注过程通过Yandex Toloka平台进行,仅允许表现最佳的30%用户参与,每个句子至少被标注三次。
情绪标签代码
{0: "joy", 1: "sadness", 2: "surprise", 3: "fear", 4: "anger"}
数据集分布
- Twitter: 3490 sentences
- Lenta.ru: 2851 sentences
- LiveJournal: 3069 sentences
训练与测试集
- 训练集:7528 examples
- 测试集:1882 examples
基准模型
- 随机模型
- SVM (TF-IDF)
- 词典模型
- 我们的集成模型(基于ELMo模型和AutoML方法)
引用信息
@article{sboev2021data, title={Data-Driven Model for Emotion Detection in Russian Texts}, author={Sboev, Alexander and Naumov, Aleksandr and Rybka, Roman}, journal={Procedia Computer Science}, volume={190}, pages={637--642}, year={2021}, publisher={Elsevier} }

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
威廉王岛—全球变化数据大百科辞条
威廉王岛(King William Island)位于北美洲,北极圈内,属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间,距离维多利亚岛85 km;北面距离威尔士亲王岛155 km;南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望,最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯(James Ross)发现,以当时在位的英国君主威廉四世的名字命名。行政区划上,威廉王岛隶属于加拿大努纳武特(Nunavut)地区。它的地理位置为:69°54′22″N - 68°27′12″N,99°32′48″W - 95°09′25″W。威廉王岛总面积13259.59 km²,海岸线总长1555.35 km。岛屿地势平坦,表面散布着无数的小湖。位于岛屿东南侧的约阿港(Gjoa Haven)是岛上最主要的居民点。在约阿港东北,有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆(岛)岸线数据集(2015),结合加拿大相关地图完成。数据集由24个数据文件组成,以.kmz和.shp数据格式存储,数据量2.98 MB(压缩成3个数据文件,数据量2.06 MB)。
国家对地观测科学数据中心 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录