google-research-datasets/poem_sentiment

Name: google-research-datasets/poem_sentiment
Creator: google-research-datasets
Published: 2024-06-24 05:05:18
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/google-research-datasets/poem_sentiment

下载链接

链接失效反馈

官方服务：

资源简介：

Gutenberg Poem Dataset是一个用于诗歌情感分类的数据集，包含来自Project Gutenberg的诗歌节选。每个节选都有情感标签，分为negative、positive、no_impact和mixed四类。数据集分为训练集、验证集和测试集，分别包含892、105和104个样本。数据集的特征包括id、verse_text和label。

The Gutenberg Poem Dataset is a dataset dedicated to poem sentiment classification. It comprises poem excerpts sourced from Project Gutenberg, with each excerpt annotated with a sentiment label falling into one of four categories: negative, positive, no_impact, and mixed. The dataset is split into training, validation and test sets, which contain 892, 105 and 104 samples respectively. The features of this dataset include id, verse_text and label.

提供机构：

google-research-datasets

原始信息汇总

数据集概述

数据集信息

基本信息

数据集名称: Gutenberg Poem Dataset
语言: 英语 (en)
许可证: CC BY 4.0
多语言性: 单语种
数据集大小: 1K<n<10K
源数据: 原始数据
任务类别: 文本分类
任务ID: 情感分类
PapersWithCode ID: gutenberg-poem-dataset

数据结构

特征:
- id: 整数类型 (int32)
- verse_text: 字符串类型 (string)
- label: 类别标签
  - 0: 负面 (negative)
  - 1: 正面 (positive)
  - 2: 无影响 (no_impact)
  - 3: 混合 (mixed)

数据分割

训练集:
- 字节数: 48551
- 样本数: 892
验证集:
- 字节数: 5784
- 样本数: 105
测试集:
- 字节数: 5584
- 样本数: 104

下载和数据集大小

下载大小: 48150
数据集大小: 59919

配置

默认配置:
- 数据文件路径:
  - 训练集: data/train-*
  - 验证集: data/validation-*
  - 测试集: data/test-*

训练和评估指标

任务: 文本分类
任务ID: 多类分类
训练分割: 训练集
评估分割: 测试集
列映射:
- verse_text: 文本
- label: 目标
评估指标:
- 准确率 (Accuracy)
- F1 宏平均 (F1 macro)
- F1 微平均 (F1 micro)
- F1 加权平均 (F1 weighted)
- 精确率宏平均 (Precision macro)
- 精确率微平均 (Precision micro)
- 精确率加权平均 (Precision weighted)
- 召回率宏平均 (Recall macro)
- 召回率微平均 (Recall micro)
- 召回率加权平均 (Recall weighted)

搜集汇总

数据集介绍

构建方式

在文学计算分析领域，诗歌情感分析数据集通常源于经典文学资源的系统化整理。本数据集以古登堡计划中的诗歌作品为原始语料，通过专家标注的方式构建而成。数据构建过程涉及从古登堡计划中提取诗歌文本，随后由专业标注者依据情感倾向对每个诗节进行人工标注，形成涵盖负面、正面、无影响及混合情感的四类标签体系。数据集经过精心划分，形成了训练集、验证集和测试集，确保了模型训练与评估的科学性。

特点

该数据集在诗歌情感分析领域展现出独特价值，其核心特征在于对诗歌文本情感维度的细致刻画。数据集包含约一千余个诗节样本，每个样本均标注了精确的情感类别，涵盖了从明确情感到复杂混合情感的完整谱系。诗歌文本源自古登堡计划的经典作品，保证了语料的文学品质与语言规范性。数据规模适中，既满足深度学习模型训练的基本需求，又保持了标注质量的高度一致性，为诗歌计算分析提供了可靠的基准资源。

使用方法

在自然语言处理应用中，本数据集主要服务于诗歌情感分类任务的模型开发与评估。研究者可通过加载标准化的数据分割，直接将其应用于分类模型的训练流程。数据集兼容常见的评估指标，包括准确率、宏平均F1值等，便于进行系统性能比较。使用时应遵循数据集的许可协议，并注意原始标签索引与转换后标签体系的对应关系。该数据集也可作为诗歌风格迁移等衍生任务的实验基础，为计算文学研究提供多角度的分析素材。

背景与挑战

背景概述

在自然语言处理领域，诗歌情感分析作为一个细分研究方向，旨在探索文学文本中复杂情感的表达与识别。谷歌研究团队于2020年创建的Gutenberg Poem Dataset，源自Project Gutenberg的诗歌篇章，专注于多类别情感分类任务。该数据集由专家标注，涵盖负面、正面、无影响及混合情感四类标签，为诗歌生成系统的社会偏见研究提供了重要数据基础。其构建不仅推动了计算语言学与文学分析的交叉融合，也为情感计算在艺术文本中的应用开辟了新路径。

当前挑战

诗歌情感分析面临的核心挑战在于文学语言的高度隐喻性与模糊性，传统情感分类模型难以准确捕捉诗歌中蕴含的微妙情感层次。数据构建过程中，专家标注需克服诗歌文本的多义性挑战，确保情感标签的一致性。此外，数据集规模相对有限，涵盖的诗歌风格与时代背景可能不够全面，这限制了模型在多样化文学语境中的泛化能力。标注过程中的主观偏差也可能影响数据集的客观性，为后续研究带来潜在的不确定性。

常用场景

经典使用场景

在文学计算领域，诗歌情感分析作为文本挖掘的重要分支，Gutenberg Poem Dataset为研究者提供了经典的应用场景。该数据集通过标注诗歌节律的情感倾向，常被用于训练和评估多类别情感分类模型，尤其在处理文学性文本的细腻情感表达时，能够有效捕捉诗歌中蕴含的正面、负面、中性及混合情感，为自然语言处理技术在诗歌理解方面的应用奠定了数据基础。

衍生相关工作

基于该数据集，衍生出多项经典研究工作，例如在论文《Investigating Societal Biases in a Poetry Composition System》中，研究者利用该数据集分析了诗歌生成系统中的社会偏见问题。后续研究进一步扩展了其在风格迁移和跨模态情感分析中的应用，促进了文学计算与人工智能的交叉创新，为诗歌情感建模提供了持续的理论与实践参考。

数据集最近研究