Bilibili comment dataset
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/IgarashiAkatuki/BilibiliDatasets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了来自中国视频分享平台哔哩哔哩的评论内容,主要关注用户生成的内容以及各种话题。该数据集的任务是用于训练和评估汉语拼音缩写转换为字符的模型。
This dataset contains video comment content from Bilibili, a Chinese video sharing platform, primarily focusing on user-generated content (UGC) and diverse topics. It is specifically designed for training and evaluating models that convert Chinese Pinyin abbreviations into full Chinese characters.
搜集汇总
数据集介绍

背景与挑战
背景概述
Bilibili comment dataset是一个包含2023年从B站各个分区爬取的热门视频评论的中文数据集,总计约500万条评论,数据未经清洗,可能包含噪声和回复结构。其特点是覆盖广泛分区,但游戏区原神相关内容较多,可能导致模型训练时的偏见问题。
以上内容由遇见数据集搜集并总结生成



