five

aisingapore/sea-lion-pile

收藏
Hugging Face2024-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aisingapore/sea-lion-pile
下载链接
链接失效反馈
官方服务:
资源简介:
SEA-LION-Pile是一个为东南亚地区预训练和指令调优的大型语言模型(LLMs)的预训练数据集。该数据集包含了多种语言的数据,如中文、越南语、印尼语等,并且详细列出了每种数据源的独特令牌数、乘数和总令牌数。数据集可能包含有毒或偏见内容,并且数据过滤和去重可能存在问题。数据集的许可证信息包括ODC-By 1.0许可证和CommonCrawl ToU。
提供机构:
aisingapore
原始信息汇总

数据集概述

数据集名称: SEA-LION-Pile

数据集用途: 作为SEA-LION系列大型语言模型(LLMs)的预训练数据集,专门针对东南亚(SEA)地区进行预训练和指令调整。

数据集内容: 包含清理后的mC4部分。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作