five

万卷丝路-阿拉伯语(WanJuan-Arabic)

收藏
OpenDataLab2026-06-07 更新2025-01-18 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/WanJuan-Arabic
下载链接
链接失效反馈
官方服务:
资源简介:
“万卷·丝路”阿拉伯语语料库,体积超过220GB,包含7个大类和34个小类,覆盖历史、政治、文化、房产、购物、天气、餐饮、百科、专业知识等多个当地特色内容。丰富的主题分类不仅方便了研究人员根据具体需求检索数据,也确保了该语料能够适应不同研究领域多种需求。

‘Wanjuan·Silk Road’ Arabic Corpus has a total size exceeding 220 GB, comprising 7 major categories and 34 subcategories. It covers a wide range of regionally specific content domains including history, politics, culture, real estate, shopping, weather, catering, encyclopedic entries, and professional knowledge. The well-defined thematic classification not only allows researchers to efficiently retrieve data tailored to their specific needs, but also ensures that this corpus can meet the diverse requirements across different research disciplines.
提供机构:
OpenDataLab
创建时间:
2025-01-08
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
万卷丝路-阿拉伯语(WanJuan-Arabic)是一个超过220GB的语料库,涵盖7个大类和34个小类,包括历史、政治、文化、房产、购物、天气、餐饮、百科和专业知识等当地特色内容,丰富的主题分类便于研究人员根据需求检索数据并适应不同研究领域。该数据集采用CC BY 4.0许可协议,允许自由共享和改编,但需署名且无附加限制。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务