vietgpt/wikipedia_vi
收藏Hugging Face2023-09-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vietgpt/wikipedia_vi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个越南语维基百科数据集,包含1,284,930个训练示例。数据集的特征包括id、revid、url、title和text。数据集的任务类别为文本生成,适用于语言模型训练。
该数据集是一个越南语维基百科数据集,包含1,284,930个训练示例。数据集的特征包括id、revid、url、title和text。数据集的任务类别为文本生成,适用于语言模型训练。
提供机构:
vietgpt
原始信息汇总
数据集概述
数据集特征
- id: 整数类型 (int64)
- revid: 字符串类型 (string)
- url: 字符串类型 (string)
- title: 字符串类型 (string)
- text: 字符串类型 (string)
数据集划分
- train:
- 示例数量: 1284930
- 数据大小: 1053551922.960177 字节
数据集大小
- 下载大小: 569515706 字节
- 数据集大小: 1053551922.960177 字节
任务类别
- 文本生成
语言
- 越南语 (vi)
大小类别
- 1M<n<10M
标签
- LM



