chrisociepa/wikipedia-pl-20230401
收藏Hugging Face2023-04-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chrisociepa/wikipedia-pl-20230401
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2023年4月的波兰语维基百科清理文章。数据集从维基百科转储中构建,使用OLM项目进行处理。每个示例包含一篇完整的维基百科文章,并进行了清理以去除标记和不必要的部分(如参考文献等)。数据集的任务类别包括文本生成和填充掩码,任务ID包括语言建模和掩码语言建模。数据集的语言为波兰语,数据集的名称为Polish Wikipedia 2023-04-01,大小类别为1M<n<10M,标签包括预训练、语言建模、维基百科和网络。
提供机构:
chrisociepa
原始信息汇总
数据集概述
基本信息
- 名称: Polish Wikipedia 2023-04-01
- 语言: 波兰语 (pl)
- 大小: 1M<n<10M
- 标签: 预训练, 语言模型, 维基百科, 网络
数据集内容
- 特征:
id: 字符串类型url: 字符串类型title: 字符串类型text: 字符串类型
- 分割:
train: 1562327个样本, 2883878741字节
- 下载大小: 1761971402字节
- 数据集大小: 2883878741字节
任务与应用
- 任务类别: 文本生成, 填充掩码
- 任务ID: 语言建模, 掩码语言建模
许可信息
- 许可证: Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA)
数据来源
- 来源: 维基百科转储, 通过OLM项目处理
- 处理: 清理文章内容, 移除Markdown和不需要的部分(如参考文献等)



