five

Bilibili comment dataset

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/IgarashiAkatuki/BilibiliDatasets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了来自中国视频分享平台哔哩哔哩的评论内容,主要关注用户生成的内容以及各种话题。该数据集的任务是用于训练和评估汉语拼音缩写转换为字符的模型。

This dataset contains video comment content from Bilibili, a Chinese video sharing platform, primarily focusing on user-generated content (UGC) and diverse topics. It is specifically designed for training and evaluating models that convert Chinese Pinyin abbreviations into full Chinese characters.
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Bilibili comment dataset是一个包含2023年从B站各个分区爬取的热门视频评论的中文数据集,总计约500万条评论,数据未经清洗,可能包含噪声和回复结构。其特点是覆盖广泛分区,但游戏区原神相关内容较多,可能导致模型训练时的偏见问题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作