phucdev/ViSoBERT
收藏Hugging Face2024-07-08 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/phucdev/ViSoBERT
下载链接
链接失效反馈官方服务:
资源简介:
ViSoBERT数据集是用于预训练ViSoBERT模型的数据集,包含了从2020年1月至2022年12月期间从Facebook、Tiktok和YouTube收集的社交媒体文本。数据集的语言为越南语,主要包含一个名为train的分割,其中包含15,737,126个样本,每个样本包含一个text字段,存储为字符串类型。数据集的下载大小为862,543,908字节,数据集大小为1,275,158,349字节。数据集的任务类别为文本生成,标签为社交媒体,规模类别为10M<n<100M。
The ViSoBERT dataset is a pre-training dataset for the ViSoBERT model, containing social media texts from Facebook, Tiktok, and YouTube collected between January 2020 and December 2022. The dataset is primarily in Vietnamese and is suitable for text generation tasks.
提供机构:
phucdev



