olm/olm-wikipedia-20221220
收藏Hugging Face2022-12-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/olm/olm-wikipedia-20221220
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- no-annotation
language:
- en
language_creators:
- found
license: []
multilinguality:
- monolingual
pretty_name: OLM December 2022 Wikipedia
size_categories:
- 1M<n<10M
source_datasets: []
tags:
- pretraining
- language modelling
- wikipedia
- web
task_categories: []
task_ids: []
---
# Dataset Card for OLM December 2022 Wikipedia
Pretraining dataset, created with the OLM repo [here](https://github.com/huggingface/olm-datasets) from a December 2022 Wikipedia snapshot.
提供机构:
olm
原始信息汇总
数据集概述
基本信息
- 名称: OLM December 2022 Wikipedia
- 语言: 英语 (en)
- 多语言性: 单语种
- 许可证: 未指定
数据集大小
- 规模: 1M<n<10M
数据集创建
- 创建方式: 使用OLM仓库从2022年12月的Wikipedia快照创建
- 创建者语言: 发现
数据集用途
- 标签: 预训练、语言建模、Wikipedia、网络
- 任务类别: 未指定
- 任务ID: 未指定



