five

vladislav-savko/cc-100-01-percent-errors

收藏
Hugging Face2024-08-16 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/vladislav-savko/cc-100-01-percent-errors
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集支持多种语言,包括英语、希腊语、俄语、波兰语和乌克兰语。每个语言配置包含输入和输出两个特征,数据类型均为字符串。数据集的分割仅包含训练集,且每个语言配置的训练集大小和样本数量都有详细说明。数据集的开发者是vladislav-savko,原始数据集来源于bowphs/cc-100-01-percent。

This dataset supports multiple languages, including English, Greek, Russian, Polish, and Ukrainian. Each language configuration contains two features: input and output, both of which are of string type. The dataset split only includes the training set, and the size and number of examples for each language configuration are detailed. The dataset was developed by vladislav-savko, and the original dataset is sourced from bowphs/cc-100-01-percent.
提供机构:
vladislav-savko
原始信息汇总

数据集概述

语言支持

  • 英语 (en)
  • 希腊语 (el)
  • 俄语 (ru)
  • 波兰语 (pl)
  • 乌克兰语 (uk)

数据集配置

希腊语 (el)

  • 特征:
    • input: 字符串类型
    • output: 字符串类型
  • 分割:
    • train:
      • 字节数: 980,602,952
      • 样本数: 1,810,000
  • 下载大小: 578,445,337 字节
  • 数据集大小: 980,602,952 字节

英语 (en)

  • 特征:
    • input: 字符串类型
    • output: 字符串类型
  • 分割:
    • train:
      • 字节数: 1,964,230,580
      • 样本数: 5,530,000
  • 下载大小: 1,500,873,319 字节
  • 数据集大小: 1,964,230,580 字节

波兰语 (pl)

  • 特征:
    • input: 字符串类型
    • output: 字符串类型
  • 分割:
    • train:
      • 字节数: 837,383,681
      • 样本数: 1,920,000
  • 下载大小: 672,124,192 字节
  • 数据集大小: 837,383,681 字节

俄语 (ru)

  • 特征:
    • input: 字符串类型
    • output: 字符串类型
  • 分割:
    • train:
      • 字节数: 2,835,902,255
      • 样本数: 3,400,000
  • 下载大小: 1,652,461,964 字节
  • 数据集大小: 2,835,902,255 字节

乌克兰语 (uk)

  • 特征:
    • input: 字符串类型
    • output: 字符串类型
  • 分割:
    • train:
      • 字节数: 1,334,620,590
      • 样本数: 2,400,000
  • 下载大小: 798,016,657 字节
  • 数据集大小: 1,334,620,590 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作