spdenisov/processed2
收藏Hugging Face2023-03-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/spdenisov/processed2
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: input_ids
sequence: int32
- name: attention_mask
sequence: int8
splits:
- name: ru
num_bytes: 621791230
num_examples: 626675
- name: de
num_bytes: 1215295949
num_examples: 1167943
- name: da
num_bytes: 30261143
num_examples: 30681
- name: en
num_bytes: 170744736
num_examples: 200802
- name: cs
num_bytes: 878634213
num_examples: 714931
- name: hy
num_bytes: 38106130
num_examples: 22400
- name: it
num_bytes: 203929974
num_examples: 152068
- name: tr
num_bytes: 244064999
num_examples: 420623
- name: fi
num_bytes: 136882363
num_examples: 190386
- name: fr
num_bytes: 327327031
num_examples: 244447
- name: gd
num_bytes: 27672811
num_examples: 24787
- name: es
num_bytes: 321033274
num_examples: 199318
- name: ar
num_bytes: 403562924
num_examples: 153048
- name: ga
num_bytes: 38619575
num_examples: 28035
- name: hu
num_bytes: 8283205
num_examples: 6370
- name: 'no'
num_bytes: 195622727
num_examples: 232974
- name: nl
num_bytes: 77257944
num_examples: 86023
- name: zh
num_bytes: 78491209
num_examples: 55958
- name: cy
num_bytes: 8733351
num_examples: 7777
- name: pt
num_bytes: 123118920
num_examples: 215040
- name: cop
num_bytes: 34009564
num_examples: 9653
- name: ro
num_bytes: 76503103
num_examples: 56301
- name: gv
num_bytes: 4262342
num_examples: 8204
download_size: 928457470
dataset_size: 5264208717
---
# Dataset Card for "processed2"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
spdenisov
原始信息汇总
数据集概述
数据集特征
- input_ids: 序列类型为 int32
- attention_mask: 序列类型为 int8
数据集分割
- ru: 626675 个样本,占用 621791230 字节
- de: 1167943 个样本,占用 1215295949 字节
- da: 30681 个样本,占用 30261143 字节
- en: 200802 个样本,占用 170744736 字节
- cs: 714931 个样本,占用 878634213 字节
- hy: 22400 个样本,占用 38106130 字节
- it: 152068 个样本,占用 203929974 字节
- tr: 420623 个样本,占用 244064999 字节
- fi: 190386 个样本,占用 136882363 字节
- fr: 244447 个样本,占用 327327031 字节
- gd: 24787 个样本,占用 27672811 字节
- es: 199318 个样本,占用 321033274 字节
- ar: 153048 个样本,占用 403562924 字节
- ga: 28035 个样本,占用 38619575 字节
- hu: 6370 个样本,占用 8283205 字节
- no: 232974 个样本,占用 195622727 字节
- nl: 86023 个样本,占用 77257944 字节
- zh: 55958 个样本,占用 78491209 字节
- cy: 7777 个样本,占用 8733351 字节
- pt: 215040 个样本,占用 123118920 字节
- cop: 9653 个样本,占用 34009564 字节
- ro: 56301 个样本,占用 76503103 字节
- gv: 8204 个样本,占用 4262342 字节
数据集大小
- 下载大小: 928457470 字节
- 数据集大小: 5264208717 字节



