维基百科-英文
收藏OpenDataLab2026-06-07 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/ABear/Wiki_EN
下载链接
链接失效反馈官方服务:
资源简介:
wiki-cn数据集是一个基于中文维基百科网站的大规模文本数据集。维基百科是一个包含了大量开放式、多语言的在线百科全书,它的内容覆盖了各个领域的知识。
The wiki-cn dataset is a large-scale text dataset based on the Chinese Wikipedia website. Wikipedia is an open, multilingual online encyclopedia that contains a vast amount of content covering knowledge across all fields.
提供机构:
ABear
创建时间:
2023-07-20
搜集汇总
数据集介绍

背景与挑战
背景概述
维基百科-英文数据集是一个基于英文维基百科的大规模文本集合,包含约601万条、总计14GB的文本数据,适用于自然语言处理和知识研究。该数据集由OpenDataLab于2023年发布,提供丰富的英文资源以支持语言技术发展。
以上内容由遇见数据集搜集并总结生成



