five

spdenisov/processed2

收藏
Hugging Face2023-03-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/spdenisov/processed2
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: input_ids sequence: int32 - name: attention_mask sequence: int8 splits: - name: ru num_bytes: 621791230 num_examples: 626675 - name: de num_bytes: 1215295949 num_examples: 1167943 - name: da num_bytes: 30261143 num_examples: 30681 - name: en num_bytes: 170744736 num_examples: 200802 - name: cs num_bytes: 878634213 num_examples: 714931 - name: hy num_bytes: 38106130 num_examples: 22400 - name: it num_bytes: 203929974 num_examples: 152068 - name: tr num_bytes: 244064999 num_examples: 420623 - name: fi num_bytes: 136882363 num_examples: 190386 - name: fr num_bytes: 327327031 num_examples: 244447 - name: gd num_bytes: 27672811 num_examples: 24787 - name: es num_bytes: 321033274 num_examples: 199318 - name: ar num_bytes: 403562924 num_examples: 153048 - name: ga num_bytes: 38619575 num_examples: 28035 - name: hu num_bytes: 8283205 num_examples: 6370 - name: 'no' num_bytes: 195622727 num_examples: 232974 - name: nl num_bytes: 77257944 num_examples: 86023 - name: zh num_bytes: 78491209 num_examples: 55958 - name: cy num_bytes: 8733351 num_examples: 7777 - name: pt num_bytes: 123118920 num_examples: 215040 - name: cop num_bytes: 34009564 num_examples: 9653 - name: ro num_bytes: 76503103 num_examples: 56301 - name: gv num_bytes: 4262342 num_examples: 8204 download_size: 928457470 dataset_size: 5264208717 --- # Dataset Card for "processed2" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
spdenisov
原始信息汇总

数据集概述

数据集特征

  • input_ids: 序列类型为 int32
  • attention_mask: 序列类型为 int8

数据集分割

  • ru: 626675 个样本,占用 621791230 字节
  • de: 1167943 个样本,占用 1215295949 字节
  • da: 30681 个样本,占用 30261143 字节
  • en: 200802 个样本,占用 170744736 字节
  • cs: 714931 个样本,占用 878634213 字节
  • hy: 22400 个样本,占用 38106130 字节
  • it: 152068 个样本,占用 203929974 字节
  • tr: 420623 个样本,占用 244064999 字节
  • fi: 190386 个样本,占用 136882363 字节
  • fr: 244447 个样本,占用 327327031 字节
  • gd: 24787 个样本,占用 27672811 字节
  • es: 199318 个样本,占用 321033274 字节
  • ar: 153048 个样本,占用 403562924 字节
  • ga: 28035 个样本,占用 38619575 字节
  • hu: 6370 个样本,占用 8283205 字节
  • no: 232974 个样本,占用 195622727 字节
  • nl: 86023 个样本,占用 77257944 字节
  • zh: 55958 个样本,占用 78491209 字节
  • cy: 7777 个样本,占用 8733351 字节
  • pt: 215040 个样本,占用 123118920 字节
  • cop: 9653 个样本,占用 34009564 字节
  • ro: 56301 个样本,占用 76503103 字节
  • gv: 8204 个样本,占用 4262342 字节

数据集大小

  • 下载大小: 928457470 字节
  • 数据集大小: 5264208717 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作