aisingapore/SEA-PILE-v2
收藏Hugging Face2025-04-14 更新2025-05-31 收录
下载链接:
https://hf-mirror.com/datasets/aisingapore/SEA-PILE-v2
下载链接
链接失效反馈官方服务:
资源简介:
SEA-PILE v2是一个大规模的多语言语言模型数据集,包含1200亿个标记,来源于多样化的网络内容。支持的语言包括越南语、印度尼西亚语、泰米尔语、马来语、泰语、他加禄语、高棉语、老挝语和缅甸语。
SEA-PILE v2 is a large, multilingual language modelling dataset of 120 billion tokens, sourced from a diverse array of web content. It supports Vietnamese, Bahasa Indonesia, Tamil, Malay, Thai, Tagalog, Khmer, Lao, and Burmese languages.
提供机构:
aisingapore



