five

google-research-datasets/poem_sentiment

收藏
Hugging Face2024-06-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/poem_sentiment
下载链接
链接失效反馈
官方服务:
资源简介:
Gutenberg Poem Dataset是一个用于诗歌情感分类的数据集,包含来自Project Gutenberg的诗歌节选。每个节选都有情感标签,分为negative、positive、no_impact和mixed四类。数据集分为训练集、验证集和测试集,分别包含892、105和104个样本。数据集的特征包括id、verse_text和label。

The Gutenberg Poem Dataset is a dataset dedicated to poem sentiment classification. It comprises poem excerpts sourced from Project Gutenberg, with each excerpt annotated with a sentiment label falling into one of four categories: negative, positive, no_impact, and mixed. The dataset is split into training, validation and test sets, which contain 892, 105 and 104 samples respectively. The features of this dataset include id, verse_text and label.
提供机构:
google-research-datasets
原始信息汇总

数据集概述

数据集信息

基本信息

  • 数据集名称: Gutenberg Poem Dataset
  • 语言: 英语 (en)
  • 许可证: CC BY 4.0
  • 多语言性: 单语种
  • 数据集大小: 1K<n<10K
  • 源数据: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 情感分类
  • PapersWithCode ID: gutenberg-poem-dataset

数据结构

  • 特征:
    • id: 整数类型 (int32)
    • verse_text: 字符串类型 (string)
    • label: 类别标签
      • 0: 负面 (negative)
      • 1: 正面 (positive)
      • 2: 无影响 (no_impact)
      • 3: 混合 (mixed)

数据分割

  • 训练集:
    • 字节数: 48551
    • 样本数: 892
  • 验证集:
    • 字节数: 5784
    • 样本数: 105
  • 测试集:
    • 字节数: 5584
    • 样本数: 104

下载和数据集大小

  • 下载大小: 48150
  • 数据集大小: 59919

配置

  • 默认配置:
    • 数据文件路径:
      • 训练集: data/train-*
      • 验证集: data/validation-*
      • 测试集: data/test-*

训练和评估指标

  • 任务: 文本分类
  • 任务ID: 多类分类
  • 训练分割: 训练集
  • 评估分割: 测试集
  • 列映射:
    • verse_text: 文本
    • label: 目标
  • 评估指标:
    • 准确率 (Accuracy)
    • F1 宏平均 (F1 macro)
    • F1 微平均 (F1 micro)
    • F1 加权平均 (F1 weighted)
    • 精确率 宏平均 (Precision macro)
    • 精确率 微平均 (Precision micro)
    • 精确率 加权平均 (Precision weighted)
    • 召回率 宏平均 (Recall macro)
    • 召回率 微平均 (Recall micro)
    • 召回率 加权平均 (Recall weighted)
搜集汇总
数据集介绍
main_image_url
构建方式
在文学计算分析领域,诗歌情感分析数据集通常源于经典文学资源的系统化整理。本数据集以古登堡计划中的诗歌作品为原始语料,通过专家标注的方式构建而成。数据构建过程涉及从古登堡计划中提取诗歌文本,随后由专业标注者依据情感倾向对每个诗节进行人工标注,形成涵盖负面、正面、无影响及混合情感的四类标签体系。数据集经过精心划分,形成了训练集、验证集和测试集,确保了模型训练与评估的科学性。
特点
该数据集在诗歌情感分析领域展现出独特价值,其核心特征在于对诗歌文本情感维度的细致刻画。数据集包含约一千余个诗节样本,每个样本均标注了精确的情感类别,涵盖了从明确情感到复杂混合情感的完整谱系。诗歌文本源自古登堡计划的经典作品,保证了语料的文学品质与语言规范性。数据规模适中,既满足深度学习模型训练的基本需求,又保持了标注质量的高度一致性,为诗歌计算分析提供了可靠的基准资源。
使用方法
在自然语言处理应用中,本数据集主要服务于诗歌情感分类任务的模型开发与评估。研究者可通过加载标准化的数据分割,直接将其应用于分类模型的训练流程。数据集兼容常见的评估指标,包括准确率、宏平均F1值等,便于进行系统性能比较。使用时应遵循数据集的许可协议,并注意原始标签索引与转换后标签体系的对应关系。该数据集也可作为诗歌风格迁移等衍生任务的实验基础,为计算文学研究提供多角度的分析素材。
背景与挑战
背景概述
在自然语言处理领域,诗歌情感分析作为一个细分研究方向,旨在探索文学文本中复杂情感的表达与识别。谷歌研究团队于2020年创建的Gutenberg Poem Dataset,源自Project Gutenberg的诗歌篇章,专注于多类别情感分类任务。该数据集由专家标注,涵盖负面、正面、无影响及混合情感四类标签,为诗歌生成系统的社会偏见研究提供了重要数据基础。其构建不仅推动了计算语言学与文学分析的交叉融合,也为情感计算在艺术文本中的应用开辟了新路径。
当前挑战
诗歌情感分析面临的核心挑战在于文学语言的高度隐喻性与模糊性,传统情感分类模型难以准确捕捉诗歌中蕴含的微妙情感层次。数据构建过程中,专家标注需克服诗歌文本的多义性挑战,确保情感标签的一致性。此外,数据集规模相对有限,涵盖的诗歌风格与时代背景可能不够全面,这限制了模型在多样化文学语境中的泛化能力。标注过程中的主观偏差也可能影响数据集的客观性,为后续研究带来潜在的不确定性。
常用场景
经典使用场景
在文学计算领域,诗歌情感分析作为文本挖掘的重要分支,Gutenberg Poem Dataset为研究者提供了经典的应用场景。该数据集通过标注诗歌节律的情感倾向,常被用于训练和评估多类别情感分类模型,尤其在处理文学性文本的细腻情感表达时,能够有效捕捉诗歌中蕴含的正面、负面、中性及混合情感,为自然语言处理技术在诗歌理解方面的应用奠定了数据基础。
衍生相关工作
基于该数据集,衍生出多项经典研究工作,例如在论文《Investigating Societal Biases in a Poetry Composition System》中,研究者利用该数据集分析了诗歌生成系统中的社会偏见问题。后续研究进一步扩展了其在风格迁移和跨模态情感分析中的应用,促进了文学计算与人工智能的交叉创新,为诗歌情感建模提供了持续的理论与实践参考。
数据集最近研究
最新研究方向
在文学计算领域,诗歌情感分析数据集为探索自然语言处理与人文研究的交叉提供了独特资源。该数据集源自古登堡计划的诗歌文本,其四分类情感标注体系推动了细粒度情感理解模型的发展。前沿研究聚焦于利用预训练语言模型捕捉诗歌中的隐喻与象征所蕴含的复杂情感,同时关注生成式人工智能在诗歌创作中潜在的社会偏见问题。相关热点事件涉及生成式AI在创意写作中的伦理讨论,该数据集为评估和缓解算法偏见提供了基准。其影响在于促进了计算文学分析方法的深化,为情感计算在艺术领域的应用奠定了数据基础,具有跨学科的研究意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作