five

WanJuan-Arabic

收藏
Opencsg2025-04-22 更新2025-04-26 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/WanJuan-Arabic
下载链接
链接失效反馈
官方服务:
资源简介:
这是对README.md的总结: 该文档介绍了 **WanJuan-Arabic(万卷丝路-阿拉伯语)** 语料库,这是一个超过220GB的大型数据集,包含7个主要类别和34个子类别,涵盖了历史、政治、文化、房地产、购物、天气、餐饮、百科全书和专业知识等广泛的本地化内容。 **主要内容包括:** * **简介:** 语料库的概述和特点。 * **下载:** 提供了在 [OpenDataLab](https://opendatalab.com/OpenDataLab/WanJuan-Arabic/tree/main) 下载数据集的链接。 * **许可:** 该语料库使用 CC BY 4.0 许可协议,允许共享和修改,但需要署名。 * **特别说明:** 强调某些子集可能受其他许可协议约束,并提供了联系方式 `OpenDataLab@pjlab.org.cn` 用于处理侵权问题。 * **引用:** 提供了BibTeX格式的引用信息,方便研究人员在论文中引用该数据集。包括以下两个引用: ``` @misc{yu2025wanjuansiluhighqualityopensourcewebtext, title={WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages}, author={Jia Yu and Fei Yuan and Rui Min and Jing Yu and Pei Chu and Jiayang Li and Wei Li and Ruijie Zhang and Zhenxiang Li and Zhifei Ren and Dong Zheng and Wenjian Zhang and Yan Teng and Lingyu Meng and ZhenJiang Jin and Jiantao Qiu and ShaSha Wang and Zhongying Tu and Dahua Lin and Yu Wang and Yu Qiao and Yanfeng Wang and Conghui He}, year={2025}, eprint={2501.14506}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.14506}, } ``` ``` @misc{he2024opendatalabempoweringgeneralartificial, title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets}, author={Conghui He and Wei Li and Zhenjiang Jin and Chao Xu and Bin Wang and Dahua Lin}, year={2024}, eprint={2407.13773}, archivePrefix={arXiv}, primaryClass={cs.DL}, url={https://arxiv.org/abs/2407.13773}, } ``` 总而言之,这是一个关于一个大型阿拉伯语语料库的介绍文档,旨在方便研究人员使用和引用该数据集。
创建时间:
2025-04-24
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作