five

yaakov/wikipedia-de-splits

收藏
Hugging Face2022-07-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yaakov/wikipedia-de-splits
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集的唯一目标是提供不同大小的随机德语维基百科文章,以便用于快速开发和统计相关测量。为此,从2022年3月1日的德语维基百科预处理的测试集中加载了2665357篇文章,随机排列后创建了不同大小的分割,分割大小以2的幂次方递增,从1到所有文章。分割名称为字符串,其中all分割包含所有2665357篇文章。
提供机构:
yaakov
原始信息汇总

数据集概述

基本信息

  • 数据集名称: wikipedia-de-splits
  • 语言: 德语 (de)
  • 许可证:
    • cc-by-sa-3.0
    • gfdl

数据集内容

  • 来源: 德国维基百科
  • 任务类型:
    • 文本生成
    • 填充掩码
  • 任务ID:
    • 语言建模
    • 掩码语言建模

数据集结构

  • 大小分类:
    • n<1K
    • 1K<n<10K
    • 10K<n<100K
    • 100K<n<1M
    • 1M<n<10M
  • 配置:
    • "1" 至 "21"
    • "all" (包含所有2665357篇文章)

数据集创建

  • 创建方法: 使用Hugging Face的datasetstransformers库,从2022年3月1日的德国维基百科数据中随机抽取并创建不同大小的数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作