five

《红楼梦》文本数据及87版红楼梦电视剧弹幕数据|文学分析数据集|情感分析数据集

收藏
github2024-09-05 更新2024-09-22 收录
文学分析
情感分析
下载链接:
https://github.com/mzjj-coder/The-Story-of-the-Stone
下载链接
链接失效反馈
资源简介:
该数据集包括两个部分:一是程乙本《红楼梦》的文本数据,用于分析各章节之间的关系和不同角色之间的关系;二是87版红楼梦电视剧的弹幕数据,用于分析观众对不同角色的情感偏向。
创建时间:
2024-09-05
原始信息汇总

《红楼梦》数据集概述

数据来源

  • 书籍语料:程乙本《红楼梦》
  • 电视剧弹幕语料:腾讯视频87版红楼梦电视剧36集的699046条弹幕

数据处理与分析

书籍语料分析

  1. 文本预处理

    • 去除停用词、特殊符号,分词。
    • 统计各章节词数、段数、字数变化。
  2. 章节关系分析

    • 使用tf-idf特征词提取方法构建特征矩阵。
    • 采用层次聚类法对120回各章节内容进行聚类,分析章节间的层次关系。
  3. 角色关系分析

    • 使用WordVec模型生成词向量,挖掘不同角色之间的关联度。
    • 利用Kmeans方法进行角色间的关系聚类,并绘制空间投影图及关系网络图。

电视剧弹幕语料分析

  1. 弹幕情感分析

    • 使用SnowNLP及构建情感词典方法,分析观众对不同角色的情感偏向。
    • 统计不同角色的弹幕情感得分均值,得出观众对角色的情感倾向。
  2. LDA主题模型

    • 通过计算不同k取值时的困惑度,选取k=7构建LDA主题模型。
    • 使用pyLDAvis库进行可视化展示,分析不同主题及下属词语。

数据可视化

  • 词云图:展示《红楼梦》书籍语料中的高频词汇。
  • 人物提及次数图:展示词频最高的前九位角色。
  • 120回前后特征对比图:展示前80回与后40回章节间段数、词数、字数的折线图。
  • 层次聚类图:展示《红楼梦》各章节间的层次关系。
  • 角色关系网络图:展示不同角色间的亲疏远近。
  • 弹幕数量折线图:展示每集弹幕数量的变化。
  • 情感得分直方图与密度曲线:展示弹幕情感得分的分布情况。
  • 角色情感倾向图:展示观众对不同角色的情感倾向。

结论

  • 书籍语料分析表明,《红楼梦》各章节间存在复杂的层次关系,不同角色间有明显的关联度。
  • 电视剧弹幕语料分析显示,观众对不同角色的情感态度多样,情感得分分布偏向积极。
AI搜集汇总
数据集介绍
main_image_url
构建方式
本数据集的构建基于《红楼梦》文本及其1987年电视剧版本的弹幕数据。首先,选取程乙本《红楼梦》作为文本语料,经过去除停用词、特殊符号及分词等预处理步骤,构建了包含120回章节的语料库。随后,采用tf-idf特征词提取方法,结合层次聚类法,对各章节进行聚类分析,揭示章节间的层次关系。对于角色关系分析,利用WordVec模型生成词向量,并通过Kmeans方法进行角色聚类,绘制空间投影图及关系网络图以可视化展示。此外,通过爬虫技术获取了87版《红楼梦》电视剧的699046条弹幕数据,运用SnowNLP及情感词典方法,分析观众对不同角色的情感倾向。
特点
该数据集的显著特点在于其多维度的分析视角。首先,通过层次聚类和WordVec模型,深入解析了《红楼梦》文本中章节与角色间的复杂关系,提供了量化分析的可能性。其次,结合电视剧弹幕数据,不仅捕捉了观众对角色的实时情感反应,还通过情感分析揭示了观众对不同情节和角色的情感偏向。这种结合文本与弹幕数据的分析方法,为研究《红楼梦》的文学价值和观众接受度提供了独特的视角。
使用方法
使用该数据集时,研究者可以首先加载《红楼梦》文本语料库,利用提供的预处理数据进行进一步的文本分析,如章节关系分析或角色关系挖掘。对于弹幕数据,可以通过情感分析工具如SnowNLP,分析观众对特定角色或情节的情感反应。此外,数据集还提供了可视化工具,如层次聚类图和关系网络图,帮助研究者直观理解文本和弹幕数据中的复杂关系。通过这些方法,研究者可以深入探讨《红楼梦》的文学结构和观众情感反应,从而获得对这部古典名著的全新理解。
背景与挑战
背景概述
《红楼梦》文本数据及87版红楼梦电视剧弹幕数据集,源自中国古典四大名著之一的《红楼梦》及其1987年改编的电视剧。该数据集由研究者们精心构建,旨在通过现代文本挖掘技术,深入解析这部文学巨著的复杂结构与人物关系。数据集的创建不仅有助于学术界对《红楼梦》进行量化分析,还为文化研究提供了新的视角。通过整合小说文本与电视剧弹幕,该数据集揭示了观众对小说人物的情感态度,进一步丰富了对这部经典作品的理解。
当前挑战
该数据集面临的挑战主要包括两个方面:一是文本数据的复杂性,《红楼梦》作为一部情节错综复杂、人物关系繁复的文学作品,其文本分析需要克服语言古雅、文化背景深厚等难题;二是弹幕数据的实时性和多样性,电视剧弹幕反映了观众的即时情感反应,如何准确捕捉和分析这些动态数据,是一个技术上的挑战。此外,数据集的构建过程中还需解决文本预处理、特征提取、情感分析等技术问题,以确保分析结果的准确性和可靠性。
常用场景
经典使用场景
《红楼梦》文本数据及87版红楼梦电视剧弹幕数据集的经典使用场景主要集中在文学分析与社会情感研究领域。通过对《红楼梦》文本的章节关系和角色关系的量化分析,研究者能够深入探讨小说结构与人物互动的复杂性。同时,利用电视剧弹幕数据,可以分析观众对不同角色的情感倾向,揭示大众对经典文学作品的现代解读与情感共鸣。
衍生相关工作
基于该数据集,研究者已经开展了多项相关工作,包括但不限于《红楼梦》章节关系的深度分析、角色关系的网络构建以及观众情感倾向的模型预测。这些工作不仅丰富了文学研究的工具箱,也为社会情感分析和大数据应用提供了新的案例和方法论。
数据集最近研究
最新研究方向
近年来,《红楼梦》文本数据及87版红楼梦电视剧弹幕数据的研究逐渐成为文学与数据科学交叉领域的热点。研究者们通过文本挖掘技术,如层次聚类和Word2Vec模型,深入分析了小说章节间的关联及角色间的关系。此外,利用弹幕数据进行情感分析,揭示了观众对不同角色的情感倾向,为理解现代观众对古典文学作品的接受提供了新的视角。这些研究不仅丰富了对《红楼梦》文本的理解,也为文学作品的数字化分析提供了范例。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录