万卷丝路-越南语(WanJuan-Vietnamese)
收藏OpenDataLab2026-06-07 更新2025-01-18 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/WanJuan-Vietnamese
下载链接
链接失效反馈官方服务:
资源简介:
“万卷·丝路”越南语语料库,体积超过280GB,包含7个大类和34个小类,覆盖历史、政治、文化、房产、购物、天气、餐饮、百科、专业知识等多个当地特色内容。丰富的主题分类不仅方便了研究人员根据具体需求检索数据,也确保了该语料能够适应不同研究领域多种需求。
The "Wanjuan·Silk Road" Vietnamese Corpus has a total storage size exceeding 280 GB, comprising 7 major categories and 34 subcategories, covering multiple locally distinctive contents including history, politics, culture, real estate, shopping, weather, catering, encyclopedic knowledge, professional knowledge and more. The rich thematic classification not only facilitates researchers to retrieve data tailored to their specific needs, but also ensures that this corpus can meet diverse requirements across various research fields.
提供机构:
OpenDataLab
创建时间:
2025-01-09
搜集汇总
数据集介绍

背景与挑战
背景概述
万卷丝路-越南语(WanJuan-Vietnamese)是一个超过280GB的多语言语料库,涵盖历史、政治、文化等多个当地特色内容,采用CC BY 4.0许可协议,由上海人工智能实验室·大模型语料数据联盟发布。
以上内容由遇见数据集搜集并总结生成



