HAERAE-HUB/KOREAN-WEBTEXT

Name: HAERAE-HUB/KOREAN-WEBTEXT
Creator: HAERAE-HUB
Published: 2024-05-31 15:54:12
License: 暂无描述

Hugging Face2024-05-31 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/HAERAE-HUB/KOREAN-WEBTEXT

下载链接

链接失效反馈

官方服务：

资源简介：

KOREAN-WEBTEXT是一个高质量的韩语语料库，包含22亿个标记。数据来源于多个公开的语料库和团队收集的互联网资源。数据集在句子和文档级别都进行了严格的过滤，以确保文本质量，并应用了去重步骤来确保数据的唯一性。

提供机构：

HAERAE-HUB

原始信息汇总

数据集概述

数据集名称

KOREAN-WEBTEXT

数据集描述

KOREAN-WEBTEXT 是一个高质量的韩语语言语料库，包含22亿个令牌。数据来源于以下几个主要来源：
- cc100
- oscar-corpus/OSCAR-2201
- oscar-corpus/OSCAR-2109
- oscar-corpus/OSCAR-2301
- ontocord/CulturaY
- 团队收集的其他可信互联网来源

数据集特征

text: 数据类型为字符串
source: 数据类型为字符串
token_count: 数据类型为int64
index_level_0: 数据类型为int64

数据集分割

train: 包含1284879个样本，总字节数为8555372905

数据集大小

下载大小: 4472792071字节
数据集大小: 8555372905字节

数据集过滤和去重

句子级过滤:
1. 重复检查
2. 标点检查
3. 令牌计数检查
4. 字符计数检查
文档级过滤:
1. 令牌计数检查
2. 停用词移除
去重过程:
1. 精确去重
2. 前15个令牌去重
3. 后15个令牌去重

数据集用途

由于数据集大小，可能不适合预训练模型，但更适合进行消融研究。

数据集加载示例

python import datasets

dataset = datasets.load_dataset(HAERAE-HUB/KOREAN-WEBTEXT-1B)

引用信息

@dataset{KOREAN-WEBTEXT, title={KOREAN-WEBTEXT: A High-Quality Korean Language Corpus}, author={HAERAE-Team}, year={2024}, howpublished={url{https://huggingface.co/datasets/HAERAE-HUB/KOREAN-WEBTEXT}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集