wisenut-nlp-team/llama3_pretrain
收藏Hugging Face2024-07-12 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/wisenut-nlp-team/llama3_pretrain
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含英语和韩语两种语言的文本数据,每种语言都有完整版和小规模版。完整版的英语数据集包含4000万个样本,韩语数据集包含4061万多个样本。小规模版的英语和韩语数据集各包含40万个样本。所有数据都包含一个名为text的字段,数据类型为字符串。数据集主要用于文本相关的自然语言处理任务。
The dataset contains text data in two languages: English and Korean, each with a full version and a small version. The full English dataset contains 40 million samples, and the Korean dataset contains over 40.61 million samples. The small versions of the English and Korean datasets each contain 400,000 samples. All data includes a field named text with a data type of string. The dataset is primarily used for text-related natural language processing tasks.
提供机构:
wisenut-nlp-team
原始信息汇总
数据集概述
数据集配置
英语数据集 (english)
- 特征:
text: 数据类型为string
- 分割:
train: 包含 40,000,000 个样本,占用 191,184,892,475 字节
- 下载大小: 113,832,196,693 字节
- 数据集大小: 191,184,892,475 字节
- 数据文件路径:
english/train-*
韩语数据集 (korean)
- 特征:
text: 数据类型为string
- 分割:
train: 包含 40,619,521 个样本,占用 72,717,329,915 字节
- 下载大小: 39,839,829,628 字节
- 数据集大小: 72,717,329,915 字节
- 数据文件路径:
korean/train-*
小型英语数据集 (small_en)
- 特征:
text: 数据类型为string
- 分割:
train: 包含 400,000 个样本,占用 1,896,183,243 字节
- 下载大小: 1,128,306,164 字节
- 数据集大小: 1,896,183,243 字节
- 数据文件路径:
small_en/train-*
小型韩语数据集 (small_ko)
- 特征:
text: 数据类型为string
- 分割:
train: 包含 400,000 个样本,占用 659,616,621 字节
- 下载大小: 414,609,372 字节
- 数据集大小: 659,616,621 字节
- 数据文件路径:
small_ko/train-*



