sagteam/cedr_v1|情绪识别数据集|文本分类数据集

hugging_face2024-01-18 更新2024-05-25 收录

情绪识别

文本分类

下载链接：

https://hf-mirror.com/datasets/sagteam/cedr_v1

下载链接

链接失效反馈

资源简介：

CEDR数据集旨在检测俄语文本句子中的情绪，包含9410条来自不同社交来源的评论，标记了五种情绪类别：喜悦、悲伤、惊讶、恐惧和愤怒。该数据集有两个配置：main包含文本、标签和来源特征；enriched包括main的所有特征以及sentences。数据集预定义了训练/测试分割，适用于多标签情绪分类任务。

提供机构：

sagteam

原始信息汇总

数据集概述

数据集名称

名称: The Corpus for Emotions Detecting in Russian-language text sentences (CEDR)

语言

语言: 俄语 (ru)

许可证

许可证: Apache-2.0

多语言性

多语言性: 单语种

大小类别

大小类别: 1K<n<10K

来源数据集

来源数据集: 原始数据

任务类别

任务类别: 文本分类

任务ID

任务ID:
- 情感分类
- 多标签分类

数据集结构

数据字段

文本字段:
- 名称: text
- 数据类型: string
标签字段:
- 名称: labels
- 数据类型: sequence
- 类标签名称:
  - 0: joy
  - 1: sadness
  - 2: surprise
  - 3: fear
  - 4: anger
来源字段:
- 名称: source
- 数据类型: string
句子字段:
- 名称: sentences
- 数据类型: list
- 列表内容:
  - 名称: forma 数据类型: string
  - 名称: lemma 数据类型: string

数据分割

训练集:
- 名称: train
- 字节数: 4792338
- 示例数: 7528
测试集:
- 名称: test
- 字节数: 1182315
- 示例数: 1882

下载大小与数据集大小

下载大小: 2571516
数据集大小: 5974653

数据集创建

注释创建者

注释创建者: 众包

语言创建者

语言创建者: 发现

源数据

源数据收集:
- 来源:
  - Live Journal社交网络的帖子
  - Lenta.ru在线新闻机构的文本
  - Twitter微博客帖子
数据选择:
- 选择标准: 包含从俄语情感词汇词典中选取的标记词的句子

注释

注释过程:
- 平台: 众包平台
- 任务: 标注句子中的情感
- 情感标签: joy, sadness, anger, fear, surprise
- 质量控制: 标注者需通过测试，准确率需达到70%以上
标注者:
- 资格要求: 俄语流利，年龄超过18岁，平台内部评级前30%的用户
- 培训: 完成培训任务，标注25个样本，准确率需达到80%以上

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集，旨在通过大规模多语言数据集训练，实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率，并结合预训练的大型语言模型作为骨干，支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域，旨在解决高延迟和低自然度的问题，提供接近人类水平的语音合成质量。

arXiv 收录

DALY

DALY数据集包含了全球疾病负担研究（Global Burden of Disease Study）中的伤残调整生命年（Disability-Adjusted Life Years, DALYs）数据。该数据集提供了不同国家和地区在不同年份的DALYs指标，用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集，包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面，平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建，扩展至包含ID #6,857,737的图像，增加了超过180万张新图像，总大小约为8TB。图像以原始格式提供，分为1000个子目录，使用图像ID的模1000进行分桶，以避免文件系统性能问题。

hugging_face 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集，包含超过530万张图像-文本对，涵盖六种不同的医学成像模态：X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型（LLMs）将特定模态的分类数据集转换为图像-文本格式，并结合现有的医学领域的图像-文本数据，以促进可扩展的视觉语言模型（VLM）预训练。

github 收录

威廉王岛—全球变化数据大百科辞条

威廉王岛（King William Island）位于北美洲，北极圈内，属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间，距离维多利亚岛85 km；北面距离威尔士亲王岛155 km；南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望，最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯（James Ross）发现，以当时在位的英国君主威廉四世的名字命名。行政区划上，威廉王岛隶属于加拿大努纳武特（Nunavut）地区。它的地理位置为：69&deg54′22″N - 68&deg27′12″N，99&deg32′48″W - 95&deg09′25″W。威廉王岛总面积13259.59 km&sup2，海岸线总长1555.35 km。岛屿地势平坦，表面散布着无数的小湖。位于岛屿东南侧的约阿港（Gjoa Haven）是岛上最主要的居民点。在约阿港东北，有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆（岛）岸线数据集（2015），结合加拿大相关地图完成。数据集由24个数据文件组成，以.kmz和.shp数据格式存储，数据量2.98 MB（压缩成3个数据文件，数据量2.06 MB）。

国家对地观测科学数据中心收录