Chinese VTB Corpus

github2022-06-01 更新2024-05-31 收录

下载链接：

https://github.com/tymon42/ChineseVTBCorpus

下载链接

链接失效反馈

资源简介：

中文虚拟主播观众弹幕语料库，收录自2020年2月起的弹幕数据，数据来源为matsuri.icu，数据格式包括弹幕和形目留言，按日期组织。

The Chinese Virtual Streamer Audience Barrage Corpus, which includes barrage data collected since February 2020, sourced from matsuri.icu. The data format encompasses both barrage and comment messages, organized by date.

创建时间：

2022-02-25

原始信息汇总

中文虚拟主播观众弹幕语料库

收录范围

2020年2月起，持续更新中。

数据来源

数据来源于matsuri.icu，由brainbush提供。

数据格式

主要文件包括：
- comments.txt：包含弹幕信息。
- highlights.txt：包含形目留言（SC）。
文件组织结构：
- 文件夹按年/月/日排列。
- clip_comments文件夹：包含直播中的弹幕。
- off_comments文件夹：包含未开播时的弹幕。
文件内容格式：
- txt文件中，每一行代表一条弹幕。

AI搜集汇总

数据集介绍

构建方式

Chinese VTB Corpus 数据集的构建始于2020年2月，持续更新至今。数据来源于matsuri.icu平台，该平台由brainbush开发并维护。数据集以txt文件形式存储，包含`comments.txt`和`highlights.txt`两个主要文件，分别记录观众弹幕和形目留言。数据按年份、月份和日期进行文件夹分类，并进一步细分为直播中的弹幕和未开播时的弹幕，确保数据的时效性和完整性。

特点

该数据集的特点在于其专注于中文虚拟主播领域的观众互动数据，涵盖了丰富的弹幕内容和形目留言。数据按时间顺序排列，便于进行时间序列分析。此外，数据集还区分了直播中和未开播时的弹幕，为研究不同场景下的观众行为提供了便利。数据的格式简洁明了，每一行即一条弹幕，便于后续的数据处理和分析。

使用方法

使用Chinese VTB Corpus数据集时，用户可通过读取`comments.txt`和`highlights.txt`文件获取弹幕和形目留言数据。数据按年份、月份和日期分类存储，用户可根据需要选择特定时间段的数据进行分析。`clip_comments`文件夹下的数据适用于研究直播中的观众互动，而`off_comments`文件夹下的数据则适用于研究未开播时的观众行为。用户可通过简单的文本处理工具对数据进行清洗和分析，以支持相关研究或应用开发。

背景与挑战

背景概述

Chinese VTB Corpus 是一个专注于中文虚拟主播观众弹幕的语料库，自2020年2月起持续更新。该数据集由matsuri.icu平台提供，主要研究人员为brainbush。该语料库的核心研究问题在于如何通过分析虚拟主播直播间的弹幕数据，深入理解观众与虚拟主播之间的互动模式及其背后的文化现象。这一数据集为研究虚拟主播文化、观众行为分析以及自然语言处理领域提供了宝贵的资源，对相关领域的研究具有重要的推动作用。

当前挑战

Chinese VTB Corpus 面临的挑战主要包括两个方面。首先，在领域问题方面，虚拟主播直播间的弹幕数据具有高度的实时性和动态性，如何从中提取有意义的信息并进行分析是一个复杂的问题。其次，在数据构建过程中，由于弹幕数据的多样性和非结构化特性，数据的清洗、分类和标注工作极具挑战性。此外，确保数据的时效性和完整性，同时保护用户隐私，也是构建过程中需要克服的重要难题。

常用场景

经典使用场景

Chinese VTB Corpus数据集广泛应用于自然语言处理领域，特别是在虚拟主播与观众互动的研究中。该数据集通过收集和分析虚拟主播直播期间的观众弹幕，为研究者提供了丰富的语料资源，用于探索观众情感表达、互动模式及语言风格的变化。

解决学术问题

该数据集有效解决了虚拟主播领域内观众行为分析的难题。通过大规模弹幕数据的收集与整理，研究者能够深入探讨观众情感倾向、话题热点及互动频率等问题，为虚拟主播内容优化和观众体验提升提供了科学依据。

衍生相关工作

基于Chinese VTB Corpus数据集，研究者已发表了多篇关于虚拟主播观众行为分析的经典论文。这些工作涵盖了弹幕情感分类、话题演化分析以及观众互动模式建模等多个方向，推动了虚拟主播领域的研究进展。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集