bkai-foundation-models/BKAINewsCorpus
收藏Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/bkai-foundation-models/BKAINewsCorpus
下载链接
链接失效反馈官方服务:
资源简介:
BKAINewsCorpus数据集是基于Binhvq News Corpus扩展而来的越南新闻语料库,新增了1000万篇文章,最终形成了一个包含约3200万篇文章的语料库。数据集经过模糊去重处理,生成了53GB的干净数据,适用于大语言模型的持续预训练。
BKAINewsCorpus数据集是基于Binhvq News Corpus扩展而来的越南新闻语料库,新增了1000万篇文章,最终形成了一个包含约3200万篇文章的语料库。数据集经过模糊去重处理,生成了53GB的干净数据,适用于大语言模型的持续预训练。
提供机构:
bkai-foundation-models
原始信息汇总
数据集概述
数据集信息
-
特征:
id: 数据类型为int64link: 数据类型为stringpublish: 结构体,包含date字段,数据类型为stringtext: 数据类型为string
-
分割:
train: 包含 16,762,024 个样本,总字节数为 56,444,149,767
-
大小:
- 下载大小: 28,652,191,009 字节
- 数据集大小: 56,444,149,767 字节
配置
- 默认配置:
- 数据文件路径:
data/train-*
- 数据文件路径:



