wisenut-nlp-team/llama3_pretrain

Name: wisenut-nlp-team/llama3_pretrain
Creator: wisenut-nlp-team
Published: 2024-07-12 07:18:46
License: 暂无描述

Hugging Face2024-07-12 更新2024-07-13 收录

下载链接：

https://hf-mirror.com/datasets/wisenut-nlp-team/llama3_pretrain

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含英语和韩语两种语言的文本数据，每种语言都有完整版和小规模版。完整版的英语数据集包含4000万个样本，韩语数据集包含4061万多个样本。小规模版的英语和韩语数据集各包含40万个样本。所有数据都包含一个名为text的字段，数据类型为字符串。数据集主要用于文本相关的自然语言处理任务。

The dataset contains text data in two languages: English and Korean, each with a full version and a small version. The full English dataset contains 40 million samples, and the Korean dataset contains over 40.61 million samples. The small versions of the English and Korean datasets each contain 400,000 samples. All data includes a field named text with a data type of string. The dataset is primarily used for text-related natural language processing tasks.

提供机构：

wisenut-nlp-team

原始信息汇总

数据集概述

数据集配置

英语数据集 (english)

特征:
- text: 数据类型为 string
分割:
- train: 包含 40,000,000 个样本，占用 191,184,892,475 字节
下载大小: 113,832,196,693 字节
数据集大小: 191,184,892,475 字节
数据文件路径: english/train-*

韩语数据集 (korean)

特征:
- text: 数据类型为 string
分割:
- train: 包含 40,619,521 个样本，占用 72,717,329,915 字节
下载大小: 39,839,829,628 字节
数据集大小: 72,717,329,915 字节
数据文件路径: korean/train-*

小型英语数据集 (small_en)

特征:
- text: 数据类型为 string
分割:
- train: 包含 400,000 个样本，占用 1,896,183,243 字节
下载大小: 1,128,306,164 字节
数据集大小: 1,896,183,243 字节
数据文件路径: small_en/train-*

小型韩语数据集 (small_ko)

特征:
- text: 数据类型为 string
分割:
- train: 包含 400,000 个样本，占用 659,616,621 字节
下载大小: 414,609,372 字节
数据集大小: 659,616,621 字节
数据文件路径: small_ko/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集