five

WanJuan-Korean

收藏
Opencsg2025-04-23 更新2025-04-26 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/WanJuan-Korean
下载链接
链接失效反馈
官方服务:
资源简介:
这是对README.md的总结: 该文档描述了 **WanJuan-Korean(万卷丝路-韩语)** 语料库,这是一个超过280GB的大型韩语数据集,包含7个主要类别和34个子类别。它涵盖了广泛的本地特定内容,包括历史、政治、文化、房地产、购物、天气、餐饮、百科全书和专业知识。 **主要内容包括:** * **简介:** 介绍了语料库的规模、类别和覆盖范围。 * **下载:** 提供了从 OpenDataLab 下载数据集的链接:[https://opendatalab.com/OpenDataLab/WanJuan-Korean/tree/main](https://opendatalab.com/OpenDataLab/WanJuan-Korean/tree/main) * **许可:** 语料库采用 CC BY 4.0 许可,允许共享和修改,但需要署名。 * **特别说明:** 强调某些子集可能受其他许可协议约束,并提供了侵权投诉的联系方式。 * **引用:** 提供了 BibTeX 格式的引用信息,方便研究人员引用该数据集。其中包括两个引用: * 关于 WanJuanSiLu 数据集的引用: ``` @misc{yu2025wanjuansiluhighqualityopensourcewebtext, title={WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages}, author={Jia Yu and Fei Yuan and Rui Min and Jing Yu and Pei Chu and Jiayang Li and Wei Li and Ruijie Zhang and Zhenxiang Li and Zhifei Ren and Dong Zheng and Wenjian Zhang and Yan Teng and Lingyu Meng and ZhenJiang Jin and Jiantao Qiu and ShaSha Wang and Zhongying Tu and Dahua Lin and Yu Wang and Yu Qiao and Yanfeng Wang and Conghui He}, year={2025}, eprint={2501.14506}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.14506}, } ``` * 关于 OpenDataLab 的引用: ``` @misc{he2024opendatalabempoweringgeneralartificial, title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets}, author={Conghui He and Wei Li and Zhenjiang Jin and Chao Xu and Bin Wang and Dahua Lin}, year={2024}, eprint={2407.13773}, archivePrefix={arXiv}, primaryClass={cs.DL}, url={https://arxiv.org/abs/2407.13773}, } ``` 总而言之,该文档为研究人员提供了关于 WanJuan-Korean 数据集的全面信息,包括其内容、下载方式、许可协议和引用方式。

本总结源自README.md文档:该文档介绍了**WanJuan-Korean(万卷丝路-韩语)**语料库,这是一个体量超280GB的大型韩语语料数据集,涵盖7个大类与34个子类,囊括历史、政治、文化、房地产、购物、气象、餐饮、百科及专业知识等多维度本土特色内容。 **核心内容如下:** * **简介:** 阐述该语料库的规模、分类体系与覆盖范畴。 * **下载:** 提供了从OpenDataLab获取该数据集的官方链接:[https://opendatalab.com/OpenDataLab/WanJuan-Korean/tree/main](https://opendatalab.com/OpenDataLab/WanJuan-Korean/tree/main) * **许可协议:** 本语料库采用CC BY 4.0许可协议,允许共享与修改,但需注明原作者。 * **特别声明:** 强调部分子集可能受其他许可协议约束,并提供了侵权投诉联系方式。 * **引用规范:** 提供了BibTeX格式的引用信息,便于研究人员引用该数据集,共包含两项引用: 1. WanJuanSiLu数据集相关引用: @misc{yu2025wanjuansiluhighqualityopensourcewebtext, title={WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages}, author={Jia Yu and Fei Yuan and Rui Min and Jing Yu and Pei Chu and Jiayang Li and Wei Li and Ruijie Zhang and Zhenxiang Li and Zhifei Ren and Dong Zheng and Wenjian Zhang and Yan Teng and Lingyu Meng and ZhenJiang Jin and Jiantao Qiu and ShaSha Wang and Zhongying Tu and Dahua Lin and Yu Wang and Yu Qiao and Yanfeng Wang and Conghui He}, year={2025}, eprint={2501.14506}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.14506}, } 2. OpenDataLab平台相关引用: @misc{he2024opendatalabempoweringgeneralartificial, title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets}, author={Conghui He and Wei Li and Zhenjiang Jin and Chao Xu and Bin Wang and Dahua Lin}, year={2024}, eprint={2407.13773}, archivePrefix={arXiv}, primaryClass={cs.DL}, url={https://arxiv.org/abs/2407.13773}, } 综上,本文档为研究人员提供了WanJuan-Korean数据集的全方位信息,涵盖其内容构成、获取渠道、许可协议与引用规范。
创建时间:
2025-04-24
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
WanJuan-Korean是一个超过280GB的韩语文本数据集,涵盖7个大类和34个子类,内容广泛且具有地域特色,适用于文本生成任务,采用CC BY 4.0许可协议。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作