数据堂3,100万条东南亚语种新闻文本数据
收藏魔搭社区2025-12-09 更新2025-02-22 收录
下载链接:
https://modelscope.cn/datasets/DatatangBeijing/31MillionSoutheastAsianLanguageNewsTextDataset
下载链接
链接失效反馈官方服务:
资源简介:
本数据集为东南亚多语种新闻数据,涵盖印尼语、马来语、泰语和越南语四种语言。数据总量超过3100万条,数据以JSONL格式存储,每条记录独立成行,便于高效读取与处理。数据来源广泛,涉及各类新闻主题,能够全面反映东南亚地区的社会动态、文化热点与经济趋势。本数据集可助力大模型提升多语言能力,丰富文化知识,优化性能,拓展东南亚行业应用,推动跨语言研究。
This dataset is a multilingual news dataset for Southeast Asia, covering four languages: Indonesian, Malay, Thai and Vietnamese. It contains over 31 million entries, stored in JSONL format where each record is on a separate line, facilitating efficient reading and processing. The dataset draws from diverse sources and covers a wide range of news topics, comprehensively reflecting the social dynamics, cultural hotspots and economic trends of the Southeast Asian region. This dataset can help Large Language Models (LLMs) enhance their multilingual capabilities, enrich cultural knowledge, optimize model performance, expand industry applications in Southeast Asia, and promote cross-linguistic research.
提供机构:
maas
创建时间:
2025-02-20
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含超过3100万条东南亚语种新闻文本,涵盖印尼语、马来语、泰语和越南语四种语言,以JSONL格式存储,每条记录包含URL、标题、发布时间、文章内容和类别等字段。它旨在帮助大模型提升多语言能力,并支持东南亚地区的社会动态、文化热点和经济趋势研究。
以上内容由遇见数据集搜集并总结生成



