five

Chinese VTB Corpus|虚拟主播数据集|弹幕分析数据集

收藏
github2022-06-01 更新2024-05-31 收录
虚拟主播
弹幕分析
下载链接:
https://github.com/tymon42/ChineseVTBCorpus
下载链接
链接失效反馈
资源简介:
中文虚拟主播观众弹幕语料库,收录自2020年2月起的弹幕数据,数据来源为matsuri.icu,数据格式包括弹幕和形目留言,按日期组织。

The Chinese Virtual Streamer Audience Barrage Corpus, which includes barrage data collected since February 2020, sourced from matsuri.icu. The data format encompasses both barrage and comment messages, organized by date.
创建时间:
2022-02-25
原始信息汇总

中文虚拟主播观众弹幕语料库

收录范围

  • 2020年2月起,持续更新中。

数据来源

数据格式

  • 主要文件包括:
    • comments.txt:包含弹幕信息。
    • highlights.txt:包含形目留言(SC)。
  • 文件组织结构:
    • 文件夹按年/月/日排列。
    • clip_comments文件夹:包含直播中的弹幕。
    • off_comments文件夹:包含未开播时的弹幕。
  • 文件内容格式:
    • txt文件中,每一行代表一条弹幕。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Chinese VTB Corpus 数据集的构建始于2020年2月,持续更新至今。数据来源于matsuri.icu平台,该平台由brainbush开发并维护。数据集以txt文件形式存储,包含`comments.txt`和`highlights.txt`两个主要文件,分别记录观众弹幕和形目留言。数据按年份、月份和日期进行文件夹分类,并进一步细分为直播中的弹幕和未开播时的弹幕,确保数据的时效性和完整性。
特点
该数据集的特点在于其专注于中文虚拟主播领域的观众互动数据,涵盖了丰富的弹幕内容和形目留言。数据按时间顺序排列,便于进行时间序列分析。此外,数据集还区分了直播中和未开播时的弹幕,为研究不同场景下的观众行为提供了便利。数据的格式简洁明了,每一行即一条弹幕,便于后续的数据处理和分析。
使用方法
使用Chinese VTB Corpus数据集时,用户可通过读取`comments.txt`和`highlights.txt`文件获取弹幕和形目留言数据。数据按年份、月份和日期分类存储,用户可根据需要选择特定时间段的数据进行分析。`clip_comments`文件夹下的数据适用于研究直播中的观众互动,而`off_comments`文件夹下的数据则适用于研究未开播时的观众行为。用户可通过简单的文本处理工具对数据进行清洗和分析,以支持相关研究或应用开发。
背景与挑战
背景概述
Chinese VTB Corpus 是一个专注于中文虚拟主播观众弹幕的语料库,自2020年2月起持续更新。该数据集由matsuri.icu平台提供,主要研究人员为brainbush。该语料库的核心研究问题在于如何通过分析虚拟主播直播间的弹幕数据,深入理解观众与虚拟主播之间的互动模式及其背后的文化现象。这一数据集为研究虚拟主播文化、观众行为分析以及自然语言处理领域提供了宝贵的资源,对相关领域的研究具有重要的推动作用。
当前挑战
Chinese VTB Corpus 面临的挑战主要包括两个方面。首先,在领域问题方面,虚拟主播直播间的弹幕数据具有高度的实时性和动态性,如何从中提取有意义的信息并进行分析是一个复杂的问题。其次,在数据构建过程中,由于弹幕数据的多样性和非结构化特性,数据的清洗、分类和标注工作极具挑战性。此外,确保数据的时效性和完整性,同时保护用户隐私,也是构建过程中需要克服的重要难题。
常用场景
经典使用场景
Chinese VTB Corpus数据集广泛应用于自然语言处理领域,特别是在虚拟主播与观众互动的研究中。该数据集通过收集和分析虚拟主播直播期间的观众弹幕,为研究者提供了丰富的语料资源,用于探索观众情感表达、互动模式及语言风格的变化。
解决学术问题
该数据集有效解决了虚拟主播领域内观众行为分析的难题。通过大规模弹幕数据的收集与整理,研究者能够深入探讨观众情感倾向、话题热点及互动频率等问题,为虚拟主播内容优化和观众体验提升提供了科学依据。
衍生相关工作
基于Chinese VTB Corpus数据集,研究者已发表了多篇关于虚拟主播观众行为分析的经典论文。这些工作涵盖了弹幕情感分类、话题演化分析以及观众互动模式建模等多个方向,推动了虚拟主播领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Granary

Granary是一个包含25种欧洲语言的大规模语音识别和翻译数据集,由NVIDIA等多家机构联合创建。数据集通过伪标签技术生成,旨在解决低资源语言的语音处理问题。数据集包含约643,237.57小时的语音数据,经过精心筛选和处理,旨在提高数据质量并减少数据中的错误。该数据集可用于自动语音识别(ASR)和自动语音翻译(AST)等领域的研究,有助于提高语音模型在低资源语言上的准确性和鲁棒性。

arXiv 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录