opendatalab/WanJuan-Thai
收藏Hugging Face2025-04-22 更新2025-04-08 收录
下载链接:
https://hf-mirror.com/datasets/opendatalab/WanJuan-Thai
下载链接
链接失效反馈官方服务:
资源简介:
万卷丝路-泰语语料库是一个超过155GB的泰语资源,包含7个主要类别和34个子类别,内容包括历史、政治、文化、房地产、购物、天气、餐饮、百科全书和专业知识等。这个语料库适用于多样化的研究领域,并提供了方便的数据检索功能。
WanJuan-Thai corpus is a Thai language resource exceeding 155GB, comprising 7 major categories and 34 subcategories, including history, politics, culture, real estate, shopping, weather, dining, encyclopedias, and professional knowledge. This corpus is suitable for a diverse range of research fields and provides convenient data retrieval features.
提供机构:
opendatalab
搜集汇总
数据集介绍

背景与挑战
背景概述
WanJuan-Thai是一个超过155GB的泰语语料库,包含7大类34小类内容,覆盖历史、政治、文化等多个领域,适用于广泛的研究需求。数据集采用CC BY 4.0许可证,允许共享和改编,但需遵守署名要求。
以上内容由遇见数据集搜集并总结生成



