five

Chinese VTB Corpus|虚拟主播数据集|弹幕分析数据集

收藏
github2022-06-01 更新2024-05-31 收录
虚拟主播
弹幕分析
下载链接:
https://github.com/tymon42/ChineseVTBCorpus
下载链接
链接失效反馈
资源简介:
中文虚拟主播观众弹幕语料库,收录自2020年2月起的弹幕数据,数据来源为matsuri.icu,数据格式包括弹幕和形目留言,按日期组织。

The Chinese Virtual Streamer Audience Barrage Corpus, which includes barrage data collected since February 2020, sourced from matsuri.icu. The data format encompasses both barrage and comment messages, organized by date.
创建时间:
2022-02-25
原始信息汇总

中文虚拟主播观众弹幕语料库

收录范围

  • 2020年2月起,持续更新中。

数据来源

数据格式

  • 主要文件包括:
    • comments.txt:包含弹幕信息。
    • highlights.txt:包含形目留言(SC)。
  • 文件组织结构:
    • 文件夹按年/月/日排列。
    • clip_comments文件夹:包含直播中的弹幕。
    • off_comments文件夹:包含未开播时的弹幕。
  • 文件内容格式:
    • txt文件中,每一行代表一条弹幕。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Chinese VTB Corpus 数据集的构建始于2020年2月,持续更新至今。数据来源于matsuri.icu平台,该平台由brainbush开发并维护。数据集以txt文件形式存储,包含`comments.txt`和`highlights.txt`两个主要文件,分别记录观众弹幕和形目留言。数据按年份、月份和日期进行文件夹分类,并进一步细分为直播中的弹幕和未开播时的弹幕,确保数据的时效性和完整性。
特点
该数据集的特点在于其专注于中文虚拟主播领域的观众互动数据,涵盖了丰富的弹幕内容和形目留言。数据按时间顺序排列,便于进行时间序列分析。此外,数据集还区分了直播中和未开播时的弹幕,为研究不同场景下的观众行为提供了便利。数据的格式简洁明了,每一行即一条弹幕,便于后续的数据处理和分析。
使用方法
使用Chinese VTB Corpus数据集时,用户可通过读取`comments.txt`和`highlights.txt`文件获取弹幕和形目留言数据。数据按年份、月份和日期分类存储,用户可根据需要选择特定时间段的数据进行分析。`clip_comments`文件夹下的数据适用于研究直播中的观众互动,而`off_comments`文件夹下的数据则适用于研究未开播时的观众行为。用户可通过简单的文本处理工具对数据进行清洗和分析,以支持相关研究或应用开发。
背景与挑战
背景概述
Chinese VTB Corpus 是一个专注于中文虚拟主播观众弹幕的语料库,自2020年2月起持续更新。该数据集由matsuri.icu平台提供,主要研究人员为brainbush。该语料库的核心研究问题在于如何通过分析虚拟主播直播间的弹幕数据,深入理解观众与虚拟主播之间的互动模式及其背后的文化现象。这一数据集为研究虚拟主播文化、观众行为分析以及自然语言处理领域提供了宝贵的资源,对相关领域的研究具有重要的推动作用。
当前挑战
Chinese VTB Corpus 面临的挑战主要包括两个方面。首先,在领域问题方面,虚拟主播直播间的弹幕数据具有高度的实时性和动态性,如何从中提取有意义的信息并进行分析是一个复杂的问题。其次,在数据构建过程中,由于弹幕数据的多样性和非结构化特性,数据的清洗、分类和标注工作极具挑战性。此外,确保数据的时效性和完整性,同时保护用户隐私,也是构建过程中需要克服的重要难题。
常用场景
经典使用场景
Chinese VTB Corpus数据集广泛应用于自然语言处理领域,特别是在虚拟主播与观众互动的研究中。该数据集通过收集和分析虚拟主播直播期间的观众弹幕,为研究者提供了丰富的语料资源,用于探索观众情感表达、互动模式及语言风格的变化。
解决学术问题
该数据集有效解决了虚拟主播领域内观众行为分析的难题。通过大规模弹幕数据的收集与整理,研究者能够深入探讨观众情感倾向、话题热点及互动频率等问题,为虚拟主播内容优化和观众体验提升提供了科学依据。
衍生相关工作
基于Chinese VTB Corpus数据集,研究者已发表了多篇关于虚拟主播观众行为分析的经典论文。这些工作涵盖了弹幕情感分类、话题演化分析以及观众互动模式建模等多个方向,推动了虚拟主播领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录