five

Bilibili_MLP_Community_Dataset_241031

收藏
github2025-08-09 更新2025-08-14 收录
下载链接:
https://github.com/LUMOXu/Bilibili_MLP_Community_Dataset_241031
下载链接
链接失效反馈
官方服务:
资源简介:
截至2024年10月31日,B站所有MLP(My Little Pony)相关视频,与投稿MLP视频的up主信息的数据集。包含视频基本信息、原始数据和UP主信息等。

As of October 31, 2024, this dataset includes all MLP (My Little Pony) related videos on Bilibili, along with the information of the users who uploaded MLP videos. It encompasses video basic information, original data, and user profile details.
创建时间:
2025-08-09
原始信息汇总

Bilibili_MLP_Community_Dataset_241031 数据集概述

1. 视频数据 (1_video 文件夹)

video_info.csv

  • 数据量:157,057个MLP视频的基本信息(截至2024年11月初)。
  • 收录标准
    • 2024年10月31日23:59:59前发布。
    • 通过B站搜索关键词(小马宝莉、彩虹小马、我的小马驹、mlp、My Little Pony)能搜索到的视频。
  • 数据列
    • 视频基本信息:BV号、AV号、分p数量、分区ID及名称、版权类型、封面链接、标题、发布时间、上传时间、简介、时长。
    • 投稿者信息:UID、昵称、头像链接。
    • 互动数据:播放次数、弹幕数量、评论数量、收藏次数、投币次数、分享次数、点赞数量、上榜排名。

raw_video_data.7z

  • 视频原始JSON数据,每1000个视频合并为一个大JSON文件。
  • 包含第一批14万个视频和之后1万个视频的原始信息。

tags.7z

  • 视频tag的原始JSON数据,每1000个视频合并为一个大JSON文件。
  • 编号与video_info.csv中的idx列对应。

2. UP主数据 (2_up 文件夹)

up_info.csv

  • 数据量:5,507位MLP UP主的基本信息(截至2024年11月初)。
  • 收录标准
    • 投稿过至少三个MLP视频。
    • 粉丝数大于10。
    • MLP视频占比至少4%。
  • 数据列
    • 基本信息:UID、昵称、头像链接、性别、个性签名、B站等级、会员类型、生日、学校。
    • 视频数据:MLP视频数量、转载视频数量、自制视频数量、转载比例、总视频数量、MLP视频占比。
    • 互动数据:粉丝数量、关注数量、总播放量、总点赞数、MLP视频播放量、点赞数、投币数。
    • 时间信息:最早和最近视频发布时间。

up_tags_weighted_coin.json

  • UP主视频tag总结,按投币数加权,可用于聚类。

raw_up_info.csv

  • 所有投稿过MLP视频的32,615名UP主,仅包含UID、昵称、头像、MLP视频数量、转载数量、自制数量、转载比例。

raw_up_data.csv

  • UP主原始数据,包含四个子文件夹:
    • get_info:UP主详细个人信息。
    • get_relation_info:关注人数与粉丝数。
    • get_up_stat:总播放与总点赞数。
    • get_video:第一页视频内容(用于获取总视频数)。

3. 评论数据 (3_comment 文件夹)

mlpcmt_usr_2411.csv

  • 数据量:368,371名评论过MLP视频的用户行为数据。
  • 统计范围:5,507位MLP UP主投稿的112,509个MLP视频。
  • 数据列
    • 用户信息:UID、昵称。
    • 评论行为:评论总数、根评论数量、子评论数量、UP主点赞次数、UP主回复数量、总点赞数、总回复数。
    • 时间信息:第一条和最近一条评论的时间。

mlpcmt_2411.csv

  • 未公开,包含1,937,489条评论的具体信息。需联系作者获取。

4. 其他文件

  • figs 文件夹:报告中的高清原图。
  • BiliBili小马社区分析(2024年11月版).pdf:完整分析报告。
搜集汇总
数据集介绍
main_image_url
构建方式
Bilibili_MLP_Community_Dataset_241031数据集通过系统化采集Bilibili平台上与小马宝莉(My Little Pony)相关的视频、UP主和评论数据构建而成。数据采集基于五个关键词搜索,覆盖了截至2024年10月31日的157,057个视频和5,507位UP主。视频数据包括基本信息、分区、发布时间、互动指标等,UP主数据则涵盖投稿行为、粉丝互动、个人资料等维度。评论数据聚焦于核心UP主投稿视频下的368,371名用户行为,采用分层抽样确保数据代表性。原始数据通过bilibili_api接口获取,并经过清洗和结构化处理,形成CSV和JSON格式的多维数据集。
特点
该数据集以全面性和细粒度见长,视频维度包含播放量、弹幕数等17项互动指标,UP主维度整合了投稿偏好、粉丝特征等25项属性。独特之处在于构建了加权标签系统,通过投币数等权重反映UP主内容特征。时间跨度上保留完整的Unix时间戳与格式化日期,支持纵向分析。数据层级设计科学,包含原始API响应与清洗后结构化数据,满足不同研究需求。评论数据采用匿名化处理,在保护隐私前提下提供用户行为统计特征,兼顾学术价值与伦理规范。
使用方法
研究者可通过video_info.csv和up_info.csv快速获取结构化数据,进行社区规模、内容分布等宏观分析。raw_video_data.7z和raw_up_data.csv适合深入挖掘API原始特征,支持个性化指标构建。tag加权文件为内容聚类研究提供基础,mlpcmt_usr_2411.csv支持评论者行为模式分析。建议先阅读配套PDF报告理解数据采集逻辑,使用Python的pandas处理CSV,json模块解析嵌套数据。注意视频编号批次差异,必要时通过bvid/aid/uid进行数据关联。敏感数据需遵守使用协议,评论原始数据需联系作者授权获取。
背景与挑战
背景概述
Bilibili_MLP_Community_Dataset_241031数据集由研究者LUMO_Xu于2024年11月创建,聚焦于中国知名视频平台哔哩哔哩(Bilibili)上围绕《小马宝莉》(My Little Pony, MLP)形成的亚文化社区。该数据集系统收录了15.7万个相关视频、5507位核心UP主及36.8万条用户评论的完整生态数据,通过多维度的元数据架构(包括视频特征、创作者属性和用户互动指标),为数字人类学、社群传播学和二次创作研究提供了珍贵的观测样本。其创新性体现在首次对中文互联网特定兴趣社群进行全生命周期建模,揭示了从内容生产到消费的完整传播链条。
当前挑战
构建该数据集面临双重挑战:在领域层面,需要解决亚文化社群动态演化追踪的难题,包括用户生成内容(UGC)的语义边界界定(如如何准确定义MLP相关视频)、跨时空数据可比性(平台算法迭代导致的历史数据偏差)以及社群成员身份识别(核心参与者与临时观众的区分)。在技术实施层面,存在B站搜索API的固有局限(未标注Tag视频的漏检)、海量非结构化数据处理(如弹幕与评论的情感分析),以及隐私伦理平衡问题(公开数据与用户匿名化的矛盾)。数据集特别暴露了平台接口对长期纵向研究的制约——早期视频缺失关键时间戳字段,导致创建时间序列分析存在断层。
常用场景
经典使用场景
在数字媒体与社群文化研究领域,Bilibili_MLP_Community_Dataset_241031数据集为分析动画亚文化社群提供了丰富素材。通过15万条视频元数据与5千名UP主档案,研究者能够系统追踪《小马宝莉》粉丝群体的内容生产规律,包括视频分区分布、投稿时间序列、互动指标相关性等核心维度,尤其适合探究二次创作生态的演化轨迹。
实际应用
在平台运营实践中,该数据集可优化内容推荐算法训练。视频标签的加权聚类结果能辅助识别垂直领域创作者,而用户评论行为分析可构建更精准的社群活跃度预测模型。广告主可依据UP主粉丝画像,实现亚文化圈层的精准营销投放。
衍生相关工作
基于该数据集衍生的研究已形成多个方向:有学者构建了MLP视频质量评估体系,通过播放完成率与硬币比重的复合指标建立推荐模型;另有团队开发了跨圈层传播分析框架,利用UP主社交网络图谱解析内容扩散路径。这些工作显著推进了ACG社群研究的定量化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作