five

aisingapore/SEA-PILE-v2

收藏
Hugging Face2025-04-14 更新2025-05-31 收录
下载链接:
https://hf-mirror.com/datasets/aisingapore/SEA-PILE-v2
下载链接
链接失效反馈
官方服务:
资源简介:
SEA-PILE v2是一个大规模的多语言语言模型数据集,包含1200亿个标记,来源于多样化的网络内容。支持的语言包括越南语、印度尼西亚语、泰米尔语、马来语、泰语、他加禄语、高棉语、老挝语和缅甸语。

SEA-PILE v2 is a large, multilingual language modelling dataset of 120 billion tokens, sourced from a diverse array of web content. It supports Vietnamese, Bahasa Indonesia, Tamil, Malay, Thai, Tagalog, Khmer, Lao, and Burmese languages.
提供机构:
aisingapore
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作