google-research-datasets/poem_sentiment|诗歌数据集|情感分析数据集
收藏数据集概述
数据集信息
基本信息
- 数据集名称: Gutenberg Poem Dataset
- 语言: 英语 (en)
- 许可证: CC BY 4.0
- 多语言性: 单语种
- 数据集大小: 1K<n<10K
- 源数据: 原始数据
- 任务类别: 文本分类
- 任务ID: 情感分类
- PapersWithCode ID: gutenberg-poem-dataset
数据结构
- 特征:
id
: 整数类型 (int32)verse_text
: 字符串类型 (string)label
: 类别标签0
: 负面 (negative)1
: 正面 (positive)2
: 无影响 (no_impact)3
: 混合 (mixed)
数据分割
- 训练集:
- 字节数: 48551
- 样本数: 892
- 验证集:
- 字节数: 5784
- 样本数: 105
- 测试集:
- 字节数: 5584
- 样本数: 104
下载和数据集大小
- 下载大小: 48150
- 数据集大小: 59919
配置
- 默认配置:
- 数据文件路径:
- 训练集:
data/train-*
- 验证集:
data/validation-*
- 测试集:
data/test-*
- 训练集:
- 数据文件路径:
训练和评估指标
- 任务: 文本分类
- 任务ID: 多类分类
- 训练分割: 训练集
- 评估分割: 测试集
- 列映射:
verse_text
: 文本label
: 目标
- 评估指标:
- 准确率 (Accuracy)
- F1 宏平均 (F1 macro)
- F1 微平均 (F1 micro)
- F1 加权平均 (F1 weighted)
- 精确率 宏平均 (Precision macro)
- 精确率 微平均 (Precision micro)
- 精确率 加权平均 (Precision weighted)
- 召回率 宏平均 (Recall macro)
- 召回率 微平均 (Recall micro)
- 召回率 加权平均 (Recall weighted)
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Coffee_Shop_Sales
该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录