WanJuan-Thai
收藏Opencsg2025-04-22 更新2025-04-26 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/WanJuan-Thai
下载链接
链接失效反馈官方服务:
资源简介:
这是对README.md的总结:
该文档介绍了名为 WanJuan-Thai (万卷丝路-泰语) 的大型泰语语料库。
**主要内容:**
* **简介:** WanJuan-Thai 是一个超过 155GB 的泰语语料库,包含 7 个主要类别和 34 个子类别,涵盖历史、政治、文化、房地产、购物、天气、餐饮、百科全书和专业知识等广泛的本地化内容。
* **下载:** 可以从 OpenDataLab 下载:[https://opendatalab.com/OpenDataLab/WanJuan-Thai/tree/main](https://opendatalab.com/OpenDataLab/WanJuan-Thai/tree/main)
* **许可:** 采用 CC BY 4.0 许可,允许共享和修改,但需要署名并遵守许可协议中的其他条款。
* **特别说明:** 某些子集可能受其他许可协议约束,使用前请仔细阅读相关协议。如果发现侵权内容,可以发送邮件至 OpenDataLab@pjlab.org.cn 举报。
* **引用:** 提供了 BibTeX 格式的引用信息,方便研究者在论文中引用该数据集。包括以下两个引用:
```
@misc{yu2025wanjuansiluhighqualityopensourcewebtext,
title={WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages},
author={Jia Yu and Fei Yuan and Rui Min and Jing Yu and Pei Chu and Jiayang Li and Wei Li and Ruijie Zhang and Zhenxiang Li and Zhifei Ren and Dong Zheng and Wenjian Zhang and Yan Teng and Lingyu Meng and ZhenJiang Jin and Jiantao Qiu and ShaSha Wang and Zhongying Tu and Dahua Lin and Yu Wang and Yu Qiao and Yanfeng Wang and Conghui He},
year={2025},
eprint={2501.14506},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.14506},
}
```
```
@misc{he2024opendatalabempoweringgeneralartificial,
title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets},
author={Conghui He and Wei Li and Zhenjiang Jin and Chao Xu and Bin Wang and Dahua Lin},
year={2024},
eprint={2407.13773},
archivePrefix={arXiv},
primaryClass={cs.DL},
url={https://arxiv.org/abs/2407.13773},
}
```
总而言之,这是一个关于大规模泰语文本数据集的介绍,强调了其内容、获取方式、使用许可和引用方式。
创建时间:
2025-04-24



