HAERAE-HUB/KOREAN-WEBTEXT
收藏Hugging Face2024-05-31 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/HAERAE-HUB/KOREAN-WEBTEXT
下载链接
链接失效反馈官方服务:
资源简介:
KOREAN-WEBTEXT是一个高质量的韩语语料库,包含22亿个标记。数据来源于多个公开的语料库和团队收集的互联网资源。数据集在句子和文档级别都进行了严格的过滤,以确保文本质量,并应用了去重步骤来确保数据的唯一性。
KOREAN-WEBTEXT是一个高质量的韩语语料库,包含22亿个标记。数据来源于多个公开的语料库和团队收集的互联网资源。数据集在句子和文档级别都进行了严格的过滤,以确保文本质量,并应用了去重步骤来确保数据的唯一性。
提供机构:
HAERAE-HUB
原始信息汇总
数据集概述
数据集名称
- KOREAN-WEBTEXT
数据集描述
- KOREAN-WEBTEXT 是一个高质量的韩语语言语料库,包含22亿个令牌。数据来源于以下几个主要来源:
- cc100
- oscar-corpus/OSCAR-2201
- oscar-corpus/OSCAR-2109
- oscar-corpus/OSCAR-2301
- ontocord/CulturaY
- 团队收集的其他可信互联网来源
数据集特征
- text: 数据类型为字符串
- source: 数据类型为字符串
- token_count: 数据类型为int64
- index_level_0: 数据类型为int64
数据集分割
- train: 包含1284879个样本,总字节数为8555372905
数据集大小
- 下载大小: 4472792071字节
- 数据集大小: 8555372905字节
数据集过滤和去重
- 句子级过滤:
- 重复检查
- 标点检查
- 令牌计数检查
- 字符计数检查
- 文档级过滤:
- 令牌计数检查
- 停用词移除
- 去重过程:
- 精确去重
- 前15个令牌去重
- 后15个令牌去重
数据集用途
- 由于数据集大小,可能不适合预训练模型,但更适合进行消融研究。
数据集加载示例
python import datasets
dataset = datasets.load_dataset(HAERAE-HUB/KOREAN-WEBTEXT-1B)
引用信息
@dataset{KOREAN-WEBTEXT, title={KOREAN-WEBTEXT: A High-Quality Korean Language Corpus}, author={HAERAE-Team}, year={2024}, howpublished={url{https://huggingface.co/datasets/HAERAE-HUB/KOREAN-WEBTEXT}}, }



