five

danmaku_dataset

收藏
github2019-06-02 更新2024-05-31 收录
下载链接:
https://github.com/bilibili-dd-center/Danmaku_dataset_augmentation
下载链接
链接失效反馈
官方服务:
资源简介:
视频弹幕数据集,包含从b站vtuber视频中爬取的弹幕数据。

The video barrage dataset comprises data scraped from VTuber videos on Bilibili, encompassing user-generated comments and interactions.
创建时间:
2019-06-02
原始信息汇总

Danmaku_dataset_augmentation 数据集概述

数据集组成

  • vtuber.txt:包含vtuber名称及其对应的mid。
  • av_data_list:记录每个vtuber发布的视频av号。
  • danmuku.py:用于爬取弹幕的脚本,源码来自https://github.com/qq519043202/BILI.git
  • dataset_augment.py:运行此脚本以爬取av_data_list中的弹幕。
  • danmaku_dataset:包含视频弹幕数据。

使用方法

  • 运行以下命令以爬取弹幕:

    python3 dataset_augment.py

注意事项

  • 在爬取弹幕过程中,程序可能因不明原因卡顿,可通过按control+c跳过当前视频。
  • 由于danmuku.py的稳定性问题,部分av号对应的弹幕未能成功爬取。主要原因是该脚本无法处理分P视频的弹幕。
搜集汇总
数据集介绍
main_image_url
构建方式
danmaku_dataset数据集的构建是通过自动化爬虫程序从B站获取VTuber视频的弹幕信息。该过程首先从vtuber.txt文件中读取VTuber名称及其对应的mid,然后通过av_data_list文件获取VTuber发布的视频av号。使用danmuku.py脚本爬取对应视频的弹幕,并通过dataset_augment.py脚本对弹幕数据进行增强处理,最终形成danmaku_dataset数据集。
使用方法
使用danmaku_dataset数据集时,用户需运行dataset_augment.py脚本来启动爬虫,爬取av_data_list中的视频弹幕。在爬取过程中可能会遇到卡顿现象,此时用户可以通过按下control+c跳过当前视频继续爬取。需要注意的是,该爬虫脚本对于分p视频的弹幕爬取存在缺陷,因此这部分数据可能不会出现在数据集中。
背景与挑战
背景概述
danmaku_dataset是一个专为研究弹幕文化而构建的数据集,旨在为学术研究和产业发展提供丰富的文本资源。该数据集的创建始于对B站VTuber视频弹幕的爬取工作,其核心研究问题是探索弹幕文本在社交互动中的角色与特征。自创建以来,该数据集已被广泛应用于自然语言处理、情感分析以及社交网络分析等领域,对理解网络文化和用户行为产生了显著影响。
当前挑战
在构建danmaku_dataset的过程中,研究者面临了若干挑战。首先,爬取过程中程序的不稳定性导致数据收集效率低下,尤其是当遇到不明原因的卡顿时,需手动干预以继续爬取工作。其次,danmuku.py脚本在处理分p视频时存在缺陷,导致部分弹幕数据的缺失,虽然这不会对整体数据集造成重大影响,但依然是对数据完整性的一个挑战。
常用场景
经典使用场景
在当前数字化语境研究及网络文化分析领域,danmaku_dataset数据集的典型应用场景在于对B站VTuber视频弹幕进行深度挖掘与分析。通过爬取并整合VTuber的相关信息,研究者能够有效地探索弹幕文本的多样性、观众互动模式以及VTuber社区的形成机制。
解决学术问题
该数据集解决了网络文化研究中,特别是针对弹幕这种新型互动文本的分析难题,提供了VTuber视频与其观众互动的原始文本数据,有助于学者们深入理解网络社群行为特征,推动社交媒体文本挖掘和情感分析等领域的研究。
实际应用
danmaku_dataset数据集的实际应用广泛,可用于社交媒体分析、网络舆情监控、用户行为研究等多个方面。尤其在内容推荐系统、用户画像构建以及互动营销策略制定中,该数据集提供了宝贵的用户生成内容,具有显著的应用价值。
数据集最近研究
最新研究方向
在虚拟偶像及互动媒体研究领域,danmaku_dataset数据集的构建为学者们提供了一个宝贵的资源。该数据集通过爬取B站VTuber视频的弹幕,不仅丰富了虚拟偶像互动行为分析的数据维度,也为情感分析、用户行为模式识别等前沿研究方向提供了新的视角。近期研究利用该数据集探索了弹幕文化中的情感传播机制,以及VTuber与观众之间的社交互动特征,这对于理解网络社群构建和虚拟形象的社交影响力具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作