five

google-research-datasets/poem_sentiment|诗歌数据集|情感分析数据集

收藏
hugging_face2024-06-24 更新2024-06-15 收录
诗歌
情感分析
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/poem_sentiment
下载链接
链接失效反馈
资源简介:
Gutenberg Poem Dataset是一个用于诗歌情感分类的数据集,包含来自Project Gutenberg的诗歌节选。每个节选都有情感标签,分为negative、positive、no_impact和mixed四类。数据集分为训练集、验证集和测试集,分别包含892、105和104个样本。数据集的特征包括id、verse_text和label。
提供机构:
google-research-datasets
原始信息汇总

数据集概述

数据集信息

基本信息

  • 数据集名称: Gutenberg Poem Dataset
  • 语言: 英语 (en)
  • 许可证: CC BY 4.0
  • 多语言性: 单语种
  • 数据集大小: 1K<n<10K
  • 源数据: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 情感分类
  • PapersWithCode ID: gutenberg-poem-dataset

数据结构

  • 特征:
    • id: 整数类型 (int32)
    • verse_text: 字符串类型 (string)
    • label: 类别标签
      • 0: 负面 (negative)
      • 1: 正面 (positive)
      • 2: 无影响 (no_impact)
      • 3: 混合 (mixed)

数据分割

  • 训练集:
    • 字节数: 48551
    • 样本数: 892
  • 验证集:
    • 字节数: 5784
    • 样本数: 105
  • 测试集:
    • 字节数: 5584
    • 样本数: 104

下载和数据集大小

  • 下载大小: 48150
  • 数据集大小: 59919

配置

  • 默认配置:
    • 数据文件路径:
      • 训练集: data/train-*
      • 验证集: data/validation-*
      • 测试集: data/test-*

训练和评估指标

  • 任务: 文本分类
  • 任务ID: 多类分类
  • 训练分割: 训练集
  • 评估分割: 测试集
  • 列映射:
    • verse_text: 文本
    • label: 目标
  • 评估指标:
    • 准确率 (Accuracy)
    • F1 宏平均 (F1 macro)
    • F1 微平均 (F1 micro)
    • F1 加权平均 (F1 weighted)
    • 精确率 宏平均 (Precision macro)
    • 精确率 微平均 (Precision micro)
    • 精确率 加权平均 (Precision weighted)
    • 召回率 宏平均 (Recall macro)
    • 召回率 微平均 (Recall micro)
    • 召回率 加权平均 (Recall weighted)
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Coffee_Shop_Sales

该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录