olm/wikipedia
收藏Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/olm/wikipedia
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Wikipedia的一个分支,旨在提供一个无需使用`apache-beam`的快速处理版本,特别适用于多CPU环境。数据集包含所有语言的清理后的Wikipedia文章,每个示例包含一篇完整的Wikipedia文章内容,并去除了标记和不需要的部分(如参考文献等)。数据集主要用于语言建模任务,支持多种语言。
提供机构:
olm
原始信息汇总
数据集概述
数据集基本信息
- 名称: Wikipedia
- 别名: 无
- 许可证:
- cc-by-sa-3.0
- gfdl
- 任务类别:
- text-generation
- fill-mask
- 任务ID:
- language-modeling
- masked-language-modeling
- 源数据集: original
- 多语言性: multilingual
- 大小分类:
- n<1K
- 1K<n<10K
- 10K<n<100K
- 100K<n<1M
- 1M<n<10M
- 语言:
- 包含多种语言,如aa, ab, ace, af等,详见原文。
数据集结构
数据实例
- ID: str类型,文章的唯一标识。
- URL: str类型,文章的URL。
- 标题: str类型,文章的标题。
- 文本: str类型,文章的文本内容。
数据集创建
语言创建者
- 创建方式: crowdsourced
注释
- 注释创建者: no-annotation
其他信息
配置名称
- 包含多个配置,如20220301.aa, 20220301.ab等,详见原文。
语言BCP47
- 标识: nds-nl



