aisingapore/sea-lion-pile
收藏Hugging Face2024-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aisingapore/sea-lion-pile
下载链接
链接失效反馈官方服务:
资源简介:
SEA-LION-Pile是一个为东南亚地区预训练和指令调优的大型语言模型(LLMs)的预训练数据集。该数据集包含了多种语言的数据,如中文、越南语、印尼语等,并且详细列出了每种数据源的独特令牌数、乘数和总令牌数。数据集可能包含有毒或偏见内容,并且数据过滤和去重可能存在问题。数据集的许可证信息包括ODC-By 1.0许可证和CommonCrawl ToU。
提供机构:
aisingapore
原始信息汇总
数据集概述
数据集名称: SEA-LION-Pile
数据集用途: 作为SEA-LION系列大型语言模型(LLMs)的预训练数据集,专门针对东南亚(SEA)地区进行预训练和指令调整。
数据集内容: 包含清理后的mC4部分。



