five

WanJuan-Vietnamese(万卷丝路-越南语)

收藏
魔搭社区2026-05-21 更新2025-03-01 收录
下载链接:
https://modelscope.cn/datasets/OpenDataLab/WanJuan-Vietnamese
下载链接
链接失效反馈
官方服务:
资源简介:
“万卷·丝路”越南语语料库,体积超过280GB,包含7个大类和34个小类,覆盖历史、政治、文化、房产、购物、天气、餐饮、百科、专业知识等多个当地特色内容。丰富的主题分类不仅方便了研究人员根据具体需求检索数据,也确保了该语料能够适应不同研究领域多种需求。

"Junjuan·Silk Road" Vietnamese Corpus has a volume exceeding 280 GB, consisting of 7 top-level categories and 34 sub-categories, covering a wide range of locally characteristic content including history, politics, culture, real estate, shopping, weather, catering, encyclopedic knowledge, professional knowledge and more. The rich thematic classification not only facilitates researchers to retrieve data according to their specific needs, but also ensures that this corpus can meet diverse requirements across different research fields.
提供机构:
maas
创建时间:
2025-02-26
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
WanJuan-Vietnamese(万卷丝路-越南语)是一个大规模越南语文本数据集,体积超过280GB,涵盖7个主要类别和34个子类别,内容涉及历史、政治、文化、房地产等广泛领域,具有丰富的本地化特色。该数据集采用CC BY 4.0许可证,支持开放共享和改编,适用于低资源语言研究和多领域应用。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务