《红楼梦》文本数据及87版红楼梦电视剧弹幕数据|文学分析数据集|情感分析数据集
收藏《红楼梦》数据集概述
数据来源
- 书籍语料:程乙本《红楼梦》
- 电视剧弹幕语料:腾讯视频87版红楼梦电视剧36集的699046条弹幕
数据处理与分析
书籍语料分析
-
文本预处理:
- 去除停用词、特殊符号,分词。
- 统计各章节词数、段数、字数变化。
-
章节关系分析:
- 使用tf-idf特征词提取方法构建特征矩阵。
- 采用层次聚类法对120回各章节内容进行聚类,分析章节间的层次关系。
-
角色关系分析:
- 使用WordVec模型生成词向量,挖掘不同角色之间的关联度。
- 利用Kmeans方法进行角色间的关系聚类,并绘制空间投影图及关系网络图。
电视剧弹幕语料分析
-
弹幕情感分析:
- 使用SnowNLP及构建情感词典方法,分析观众对不同角色的情感偏向。
- 统计不同角色的弹幕情感得分均值,得出观众对角色的情感倾向。
-
LDA主题模型:
- 通过计算不同k取值时的困惑度,选取k=7构建LDA主题模型。
- 使用pyLDAvis库进行可视化展示,分析不同主题及下属词语。
数据可视化
- 词云图:展示《红楼梦》书籍语料中的高频词汇。
- 人物提及次数图:展示词频最高的前九位角色。
- 120回前后特征对比图:展示前80回与后40回章节间段数、词数、字数的折线图。
- 层次聚类图:展示《红楼梦》各章节间的层次关系。
- 角色关系网络图:展示不同角色间的亲疏远近。
- 弹幕数量折线图:展示每集弹幕数量的变化。
- 情感得分直方图与密度曲线:展示弹幕情感得分的分布情况。
- 角色情感倾向图:展示观众对不同角色的情感倾向。
结论
- 书籍语料分析表明,《红楼梦》各章节间存在复杂的层次关系,不同角色间有明显的关联度。
- 电视剧弹幕语料分析显示,观众对不同角色的情感态度多样,情感得分分布偏向积极。

中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录