CCPD

github2023-07-25 更新2024-05-31 收录

下载链接：

https://github.com/yuting-wei/CCPD

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含17,103首诗歌，共有10个主题类别，分别为“思乡”、“咏物”、“山水”、“怀人”、“悼亡”、“咏史”、“田园”、“边塞战争”、“闺怨”和“送别”，和12个情感类别，包括“愁绪”、“哀伤”、“恐惧”、“惊讶”、“流泪”、“失意”、“思念”、“孤独”、“喜悦”、“怨恨”、“愤怒”和“想家”。

This dataset comprises 17,103 poems, categorized into 10 thematic groups: 'Nostalgia', 'Ode to Objects', 'Landscape', 'Reminiscence', 'Elegy', 'Historical Ode', 'Pastoral', 'Frontier Warfare', 'Boudoir Lament', and 'Farewell'. Additionally, it includes 12 emotional categories: 'Melancholy', 'Grief', 'Fear', 'Surprise', 'Tears', 'Frustration', 'Longing', 'Loneliness', 'Joy', 'Resentment', 'Anger', and 'Homesickness'.

创建时间：

2023-07-20

原始信息汇总

CCPD - 中国古典诗歌的主题和情感多标签联合分类数据集

数据集概述

诗歌数量: 17,103首
主题类别: 10类
- 思乡
- 咏物
- 山水
- 怀人
- 悼亡
- 咏史
- 田园
- 边塞战争
- 闺怨
- 送别
情感类别: 12类
- 愁绪
- 哀伤
- 恐惧
- 惊讶
- 流泪
- 失意
- 思念
- 孤独
- 喜悦
- 怨恨
- 愤怒
- 想家

搜集汇总

数据集介绍

构建方式

CCPD数据集的构建基于对中国古典诗歌的深入分析，涵盖了从唐代至清代的广泛诗歌作品。研究者通过文本挖掘和人工标注相结合的方式，对每首诗歌的主题和情感进行了细致的分类。主题类别包括思乡、咏物等十种，情感类别则涵盖了愁绪、哀伤等十二种，确保了数据集的全面性和准确性。

特点

CCPD数据集的特点在于其多标签联合分类的独特设计，每首诗歌不仅被赋予一个主题标签，还可能包含多个情感标签。这种设计反映了诗歌中复杂的情感交织和主题多样性，为研究者提供了丰富的分析维度。此外，数据集的规模较大，包含17,103首诗歌，确保了研究的广泛性和深度。

使用方法

使用CCPD数据集时，研究者可以通过文本分析技术，如自然语言处理和机器学习算法，来探索诗歌中的主题和情感模式。数据集适用于情感分析、主题模型构建以及跨时代的文学风格比较等研究。通过API或直接下载数据集文件，用户可以轻松获取所需数据，进行深入的文化和文学研究。

背景与挑战

背景概述

CCPD数据集是中国古典诗歌研究领域的一个重要资源，专注于诗歌的主题和情感多标签联合分类。该数据集由研究团队于近年创建，旨在通过现代计算技术深入挖掘古典诗歌的丰富内涵。数据集包含17,103首诗歌，涵盖了10个主题类别和12个情感类别，为研究者提供了一个全面的分析平台。通过这一数据集，研究人员能够更系统地探索古典诗歌的主题多样性和情感表达的复杂性，从而推动文学计算和数字人文领域的发展。

当前挑战

CCPD数据集在构建和应用过程中面临多重挑战。首先，古典诗歌的语言表达具有高度的隐喻性和多义性，如何准确标注主题和情感类别是一个复杂的问题。其次，诗歌的情感表达往往具有主观性，不同读者可能对同一首诗的情感有不同的解读，这增加了数据集标注的难度。此外，数据集的规模虽然较大，但在某些主题和情感类别上可能存在样本不均衡的问题，这可能影响模型的训练效果。最后，如何将现代计算技术与古典文学研究相结合，也是一个值得深入探讨的挑战。

常用场景

经典使用场景

在文学计算和数字人文领域，CCPD数据集为研究者提供了一个丰富的资源，用于探索中国古典诗歌的主题和情感表达。通过这一数据集，学者们能够深入分析诗歌中的情感倾向和主题分布，进而揭示古代文人的情感世界和创作背景。

衍生相关工作

基于CCPD数据集，已经衍生出多项经典研究，包括诗歌情感分析算法、主题模型构建以及跨文化诗歌比较研究。这些研究不仅推动了文学计算领域的发展，也为全球范围内的文学研究者提供了新的视角和方法，促进了中国古典诗歌的国际化研究。

数据集最近研究