five

chrisociepa/wikipedia-pl-20230401

收藏
Hugging Face2023-04-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chrisociepa/wikipedia-pl-20230401
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2023年4月的波兰语维基百科清理文章。数据集从维基百科转储中构建,使用OLM项目进行处理。每个示例包含一篇完整的维基百科文章,并进行了清理以去除标记和不必要的部分(如参考文献等)。数据集的任务类别包括文本生成和填充掩码,任务ID包括语言建模和掩码语言建模。数据集的语言为波兰语,数据集的名称为Polish Wikipedia 2023-04-01,大小类别为1M<n<10M,标签包括预训练、语言建模、维基百科和网络。
提供机构:
chrisociepa
原始信息汇总

数据集概述

基本信息

  • 名称: Polish Wikipedia 2023-04-01
  • 语言: 波兰语 (pl)
  • 大小: 1M<n<10M
  • 标签: 预训练, 语言模型, 维基百科, 网络

数据集内容

  • 特征:
    • id: 字符串类型
    • url: 字符串类型
    • title: 字符串类型
    • text: 字符串类型
  • 分割:
    • train: 1562327个样本, 2883878741字节
  • 下载大小: 1761971402字节
  • 数据集大小: 2883878741字节

任务与应用

  • 任务类别: 文本生成, 填充掩码
  • 任务ID: 语言建模, 掩码语言建模

许可信息

  • 许可证: Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA)

数据来源

  • 来源: 维基百科转储, 通过OLM项目处理
  • 处理: 清理文章内容, 移除Markdown和不需要的部分(如参考文献等)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作