《红楼梦》文本数据及87版红楼梦电视剧弹幕数据

github2024-09-05 更新2024-09-22 收录

下载链接：

https://github.com/mzjj-coder/The-Story-of-the-Stone

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包括两个部分：一是程乙本《红楼梦》的文本数据，用于分析各章节之间的关系和不同角色之间的关系；二是87版红楼梦电视剧的弹幕数据，用于分析观众对不同角色的情感偏向。

This dataset comprises two components: the first is the textual data of the Cheng-Yi Edition of *Dream of the Red Chamber*, which is utilized to analyze the inter-chapter relationships and inter-character relationships; the second is the danmaku data from the 1987 CCTV television adaptation of *Dream of the Red Chamber*, which is employed to examine the audience's emotional biases towards various characters.

创建时间：

2024-09-05

原始信息汇总

《红楼梦》数据集概述

数据来源

书籍语料：程乙本《红楼梦》
电视剧弹幕语料：腾讯视频87版红楼梦电视剧36集的699046条弹幕

数据处理与分析

书籍语料分析

文本预处理：
- 去除停用词、特殊符号，分词。
- 统计各章节词数、段数、字数变化。
章节关系分析：
- 使用tf-idf特征词提取方法构建特征矩阵。
- 采用层次聚类法对120回各章节内容进行聚类，分析章节间的层次关系。
角色关系分析：
- 使用WordVec模型生成词向量，挖掘不同角色之间的关联度。
- 利用Kmeans方法进行角色间的关系聚类，并绘制空间投影图及关系网络图。

电视剧弹幕语料分析

弹幕情感分析：
- 使用SnowNLP及构建情感词典方法，分析观众对不同角色的情感偏向。
- 统计不同角色的弹幕情感得分均值，得出观众对角色的情感倾向。
LDA主题模型：
- 通过计算不同k取值时的困惑度，选取k=7构建LDA主题模型。
- 使用pyLDAvis库进行可视化展示，分析不同主题及下属词语。

数据可视化

词云图：展示《红楼梦》书籍语料中的高频词汇。
人物提及次数图：展示词频最高的前九位角色。
120回前后特征对比图：展示前80回与后40回章节间段数、词数、字数的折线图。
层次聚类图：展示《红楼梦》各章节间的层次关系。
角色关系网络图：展示不同角色间的亲疏远近。
弹幕数量折线图：展示每集弹幕数量的变化。
情感得分直方图与密度曲线：展示弹幕情感得分的分布情况。
角色情感倾向图：展示观众对不同角色的情感倾向。

结论

书籍语料分析表明，《红楼梦》各章节间存在复杂的层次关系，不同角色间有明显的关联度。
电视剧弹幕语料分析显示，观众对不同角色的情感态度多样，情感得分分布偏向积极。

搜集汇总

数据集介绍

构建方式

本数据集的构建基于《红楼梦》文本及其1987年电视剧版本的弹幕数据。首先，选取程乙本《红楼梦》作为文本语料，经过去除停用词、特殊符号及分词等预处理步骤，构建了包含120回章节的语料库。随后，采用tf-idf特征词提取方法，结合层次聚类法，对各章节进行聚类分析，揭示章节间的层次关系。对于角色关系分析，利用WordVec模型生成词向量，并通过Kmeans方法进行角色聚类，绘制空间投影图及关系网络图以可视化展示。此外，通过爬虫技术获取了87版《红楼梦》电视剧的699046条弹幕数据，运用SnowNLP及情感词典方法，分析观众对不同角色的情感倾向。

特点

该数据集的显著特点在于其多维度的分析视角。首先，通过层次聚类和WordVec模型，深入解析了《红楼梦》文本中章节与角色间的复杂关系，提供了量化分析的可能性。其次，结合电视剧弹幕数据，不仅捕捉了观众对角色的实时情感反应，还通过情感分析揭示了观众对不同情节和角色的情感偏向。这种结合文本与弹幕数据的分析方法，为研究《红楼梦》的文学价值和观众接受度提供了独特的视角。

使用方法

使用该数据集时，研究者可以首先加载《红楼梦》文本语料库，利用提供的预处理数据进行进一步的文本分析，如章节关系分析或角色关系挖掘。对于弹幕数据，可以通过情感分析工具如SnowNLP，分析观众对特定角色或情节的情感反应。此外，数据集还提供了可视化工具，如层次聚类图和关系网络图，帮助研究者直观理解文本和弹幕数据中的复杂关系。通过这些方法，研究者可以深入探讨《红楼梦》的文学结构和观众情感反应，从而获得对这部古典名著的全新理解。

背景与挑战

背景概述

《红楼梦》文本数据及87版红楼梦电视剧弹幕数据集，源自中国古典四大名著之一的《红楼梦》及其1987年改编的电视剧。该数据集由研究者们精心构建，旨在通过现代文本挖掘技术，深入解析这部文学巨著的复杂结构与人物关系。数据集的创建不仅有助于学术界对《红楼梦》进行量化分析，还为文化研究提供了新的视角。通过整合小说文本与电视剧弹幕，该数据集揭示了观众对小说人物的情感态度，进一步丰富了对这部经典作品的理解。

当前挑战

该数据集面临的挑战主要包括两个方面：一是文本数据的复杂性，《红楼梦》作为一部情节错综复杂、人物关系繁复的文学作品，其文本分析需要克服语言古雅、文化背景深厚等难题；二是弹幕数据的实时性和多样性，电视剧弹幕反映了观众的即时情感反应，如何准确捕捉和分析这些动态数据，是一个技术上的挑战。此外，数据集的构建过程中还需解决文本预处理、特征提取、情感分析等技术问题，以确保分析结果的准确性和可靠性。

常用场景

经典使用场景

《红楼梦》文本数据及87版红楼梦电视剧弹幕数据集的经典使用场景主要集中在文学分析与社会情感研究领域。通过对《红楼梦》文本的章节关系和角色关系的量化分析，研究者能够深入探讨小说结构与人物互动的复杂性。同时，利用电视剧弹幕数据，可以分析观众对不同角色的情感倾向，揭示大众对经典文学作品的现代解读与情感共鸣。

衍生相关工作

基于该数据集，研究者已经开展了多项相关工作，包括但不限于《红楼梦》章节关系的深度分析、角色关系的网络构建以及观众情感倾向的模型预测。这些工作不仅丰富了文学研究的工具箱，也为社会情感分析和大数据应用提供了新的案例和方法论。

数据集最近研究