five

LocalDoc/wikipedia_azerbaijan

收藏
Hugging Face2024-03-11 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/LocalDoc/wikipedia_azerbaijan
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含阿塞拜疆语维基百科的所有文章,创建于2024年,包含26万篇文章。数据集以CSV格式提供,每篇文章包含标题、文本和URL三个字段。

该数据集包含阿塞拜疆语维基百科的所有文章,创建于2024年,包含26万篇文章。数据集以CSV格式提供,每篇文章包含标题、文本和URL三个字段。
提供机构:
LocalDoc
原始信息汇总

阿塞拜疆语维基百科数据集

描述

该数据集包含阿塞拜疆语维基百科的所有文章,创建于2024年,包含26万篇文章。

格式

数据集以逗号分隔值(CSV)格式提供。每篇文章以新行表示,包含以下字段,以逗号分隔:

  • title: 文章标题
  • text: 文章内容
  • url: 文章URL

许可

数据集采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议。该许可允许您自由分享和重新分发数据集,但需注明来源,禁止商业使用和创建衍生作品。

数据集信息

  • 语言: 阿塞拜疆语
  • 许可: cc-by-nc-nd-4.0
  • 大小类别: 100K<n<1M
  • 任务类别: 文本生成, 填空
  • 标签: 维基百科, 阿塞拜疆语, 数据集, CSV

数据集配置

  • 配置名称: default
  • 数据文件:
    • 分割: train
    • 路径: data/train-*

分割信息

  • 训练集:
    • 字节数: 696233998
    • 样本数: 260011

下载和数据集大小

  • 下载大小: 271389268
  • 数据集大小: 696233998
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作