five

AlekseyScorpi/docs_on_several_languages

收藏
Hugging Face2024-04-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AlekseyScorpi/docs_on_several_languages
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含不同语言图像的集合,涵盖了阿塞拜疆语、白俄罗斯语、中文、英语、爱沙尼亚语、芬兰语、格鲁吉亚语、日语、韩语、哈萨克语、拉脱维亚语、立陶宛语、蒙古语、挪威语、波兰语、俄语和乌克兰语。每个语言都有对应的类别标签,并且每个类别至少有100张图像。该数据集最初用于基于图像的语言分类任务,但也可能适用于其他机器学习任务。

该数据集是一个包含不同语言图像的集合,涵盖了阿塞拜疆语、白俄罗斯语、中文、英语、爱沙尼亚语、芬兰语、格鲁吉亚语、日语、韩语、哈萨克语、拉脱维亚语、立陶宛语、蒙古语、挪威语、波兰语、俄语和乌克兰语。每个语言都有对应的类别标签,并且每个类别至少有100张图像。该数据集最初用于基于图像的语言分类任务,但也可能适用于其他机器学习任务。
提供机构:
AlekseyScorpi
原始信息汇总

数据集概述

数据集名称

  • 名称: docs_on_several_languages

数据集特征

  • 特征:
    • image: 图像数据
    • label: 分类标签,包含以下类别:
      • 0: az
      • 1: by
      • 2: cn
      • 3: en
      • 4: es
      • 5: fn
      • 6: gr
      • 7: jp
      • 8: ko
      • 9: kz
      • 10: la
      • 11: li
      • 12: mo
      • 13: no
      • 14: pl
      • 15: ru
      • 16: ua

数据集划分

  • 训练集:
    • 样本数量: 1987
    • 数据大小: 1893804579.79 字节
  • 测试集:
    • 样本数量: 339
    • 数据大小: 374568135 字节

数据集大小

  • 下载大小: 2423302965 字节
  • 数据集总大小: 2268372714.79 字节

任务类别

  • text-classification
  • translation
  • feature-extraction

标签

  • 语言:
    • az
    • be
    • en
    • et
    • fi
    • ka
    • ja
    • ko
    • kk
    • lv
    • lt
    • mn
    • no
    • pl
    • ru
    • uk
    • zh

许可证

  • 许可证: mit

数据集大小分类

  • 大小分类: 1K<n<10K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作