D104_million_Southeast_Asian_language_news_text_dataset
收藏OpenCSG2026-03-04 更新2026-03-14 收录
下载链接:
https://opencsg.com/datasets/DatatangBeijing/D104_million_Southeast_Asian_language_news_text_dataset?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
本数据集为东南亚多语种新闻数据,涵盖印尼语、马来语、泰语和越南语四种语言。数据总量超过3100万条,数据以JSONL格式存储,每条记录独立成行,便于高效读取与处理。数据来源广泛,涉及各类新闻主题,能够全面反映东南亚地区的社会动态、文化热点与经济趋势。本数据集可助力大模型提升多语言能力,丰富文化知识,优化性能,拓展东南亚行业应用,推动跨语言研究。
提供机构:
DatatangBeijing
创建时间:
2026-03-04



