D016_Pre_training_corpus_for_IndonesianMalayand_Vietnamese
收藏OpenCSG2026-03-03 更新2026-03-14 收录
下载链接:
https://opencsg.com/datasets/DatatangBeijing/D016_Pre_training_corpus_for_IndonesianMalayand_Vietnamese?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
本数据集为东盟语种的预训练语料,包含70GB的印尼语语料、70GB的越南语语料和10GB的马来语语料,每个语种的语料均涉及社会、文化、百科、新闻等多个领域。字段清晰,领域丰富,且可根据需求扩充语种及语料规模,助力国内大模型出海。
提供机构:
DatatangBeijing
创建时间:
2026-03-04



