sagteam/cedr_v1|情绪识别数据集|文本分类数据集
收藏数据集概述
数据集名称
- 名称: The Corpus for Emotions Detecting in Russian-language text sentences (CEDR)
语言
- 语言: 俄语 (ru)
许可证
- 许可证: Apache-2.0
多语言性
- 多语言性: 单语种
大小类别
- 大小类别: 1K<n<10K
来源数据集
- 来源数据集: 原始数据
任务类别
- 任务类别: 文本分类
任务ID
- 任务ID:
- 情感分类
- 多标签分类
标签
- 标签: 情感分类
数据集结构
数据字段
- 文本字段:
- 名称: text
- 数据类型: string
- 标签字段:
- 名称: labels
- 数据类型: sequence
- 类标签名称:
- 0: joy
- 1: sadness
- 2: surprise
- 3: fear
- 4: anger
- 来源字段:
- 名称: source
- 数据类型: string
- 句子字段:
- 名称: sentences
- 数据类型: list
- 列表内容:
- 名称: forma 数据类型: string
- 名称: lemma 数据类型: string
数据分割
- 训练集:
- 名称: train
- 字节数: 4792338
- 示例数: 7528
- 测试集:
- 名称: test
- 字节数: 1182315
- 示例数: 1882
下载大小与数据集大小
- 下载大小: 2571516
- 数据集大小: 5974653
数据集创建
注释创建者
- 注释创建者: 众包
语言创建者
- 语言创建者: 发现
源数据
- 源数据收集:
- 来源:
- Live Journal社交网络的帖子
- Lenta.ru在线新闻机构的文本
- Twitter微博客帖子
- 来源:
- 数据选择:
- 选择标准: 包含从俄语情感词汇词典中选取的标记词的句子
注释
- 注释过程:
- 平台: 众包平台
- 任务: 标注句子中的情感
- 情感标签: joy, sadness, anger, fear, surprise
- 质量控制: 标注者需通过测试,准确率需达到70%以上
- 标注者:
- 资格要求: 俄语流利,年龄超过18岁,平台内部评级前30%的用户
- 培训: 完成培训任务,标注25个样本,准确率需达到80%以上
CosyVoice 2
CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。
arXiv 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
威廉王岛—全球变化数据大百科辞条
威廉王岛(King William Island)位于北美洲,北极圈内,属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间,距离维多利亚岛85 km;北面距离威尔士亲王岛155 km;南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望,最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯(James Ross)发现,以当时在位的英国君主威廉四世的名字命名。行政区划上,威廉王岛隶属于加拿大努纳武特(Nunavut)地区。它的地理位置为:69°54′22″N - 68°27′12″N,99°32′48″W - 95°09′25″W。威廉王岛总面积13259.59 km²,海岸线总长1555.35 km。岛屿地势平坦,表面散布着无数的小湖。位于岛屿东南侧的约阿港(Gjoa Haven)是岛上最主要的居民点。在约阿港东北,有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆(岛)岸线数据集(2015),结合加拿大相关地图完成。数据集由24个数据文件组成,以.kmz和.shp数据格式存储,数据量2.98 MB(压缩成3个数据文件,数据量2.06 MB)。
国家对地观测科学数据中心 收录