yaakov/wikipedia-de-splits
收藏Hugging Face2022-07-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yaakov/wikipedia-de-splits
下载链接
链接失效反馈官方服务:
资源简介:
该数据集的唯一目标是提供不同大小的随机德语维基百科文章,以便用于快速开发和统计相关测量。为此,从2022年3月1日的德语维基百科预处理的测试集中加载了2665357篇文章,随机排列后创建了不同大小的分割,分割大小以2的幂次方递增,从1到所有文章。分割名称为字符串,其中all分割包含所有2665357篇文章。
提供机构:
yaakov
原始信息汇总
数据集概述
基本信息
- 数据集名称: wikipedia-de-splits
- 语言: 德语 (de)
- 许可证:
- cc-by-sa-3.0
- gfdl
数据集内容
- 来源: 德国维基百科
- 任务类型:
- 文本生成
- 填充掩码
- 任务ID:
- 语言建模
- 掩码语言建模
数据集结构
- 大小分类:
- n<1K
- 1K<n<10K
- 10K<n<100K
- 100K<n<1M
- 1M<n<10M
- 配置:
- "1" 至 "21"
- "all" (包含所有2665357篇文章)
数据集创建
- 创建方法: 使用Hugging Face的
datasets和transformers库,从2022年3月1日的德国维基百科数据中随机抽取并创建不同大小的数据集。



