five

WanJuan-Vietnamese

收藏
Opencsg2025-04-23 更新2025-04-26 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/WanJuan-Vietnamese
下载链接
链接失效反馈
官方服务:
资源简介:
这是对README.md的总结: 该文档介绍了 **WanJuan-Vietnamese(万卷丝路-越南语)** 语料库,这是一个超过280GB的大型越南语数据集,包含7个主要类别和34个子类别,涵盖了历史、政治、文化、房地产、购物、天气、餐饮、百科全书和专业知识等广泛的本地化内容。 **主要内容包括:** * **简介:** 语料库的概述和特点。 * **下载:** 提供了在 [OpenDataLab](https://opendatalab.com/OpenDataLab/WanJuan-Thai/tree/main) 下载数据集的链接。 * **许可:** 使用 CC BY 4.0 许可协议,允许自由共享和修改,但需要署名。 * **特别说明:** 强调了数据集的某些子集可能受其他许可协议约束,并提供了侵权投诉的联系方式。 * **引用:** 提供了BibTeX格式的引用信息,方便研究者引用该数据集。包括两篇论文的引用: * 关于WanJuanSiLu数据集的论文: ``` @misc{yu2025wanjuansiluhighqualityopensourcewebtext, title={WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages}, author={Jia Yu and Fei Yuan and Rui Min and Jing Yu and Pei Chu and Jiayang Li and Wei Li and Ruijie Zhang and Zhenxiang Li and Zhifei Ren and Dong Zheng and Wenjian Zhang and Yan Teng and Lingyu Meng and ZhenJiang Jin and Jiantao Qiu and ShaSha Wang and Zhongying Tu and Dahua Lin and Yu Wang and Yu Qiao and Yanfeng Wang and Conghui He}, year={2025}, eprint={2501.14506}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.14506}, } ``` * 关于OpenDataLab的论文: ``` @misc{he2024opendatalabempoweringgeneralartificial, title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets}, author={Conghui He and Wei Li and Zhenjiang Jin and Chao Xu and Bin Wang and Dahua Lin}, year={2024}, eprint={2407.13773}, archivePrefix={arXiv}, primaryClass={cs.DL}, url={https://arxiv.org/abs/2407.13773}, } ``` 总而言之,这是一个关于大规模越南语语料库的介绍文档,旨在方便研究者使用该数据集进行各种研究。
创建时间:
2025-04-24
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作