rntc/pubmed_preprocess
收藏Hugging Face2023-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rntc/pubmed_preprocess
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: fr
path: data/fr-*
- split: en
path: data/en-*
- split: es
path: data/es-*
- split: de
path: data/de-*
- split: it
path: data/it-*
- split: nl
path: data/nl-*
- split: pl
path: data/pl-*
- split: pt
path: data/pt-*
- split: ro
path: data/ro-*
- split: ru
path: data/ru-*
- split: zh
path: data/zh-*
dataset_info:
features:
- name: text
dtype: string
splits:
- name: fr
num_bytes: 30582169
num_examples: 28715
- name: en
num_bytes: 90868163767
num_examples: 97816514
- name: es
num_bytes: 9925215
num_examples: 14671
- name: de
num_bytes: 46540591
num_examples: 53202
- name: it
num_bytes: 79767
num_examples: 125
- name: nl
num_bytes: 373829
num_examples: 461
- name: pl
num_bytes: 727984
num_examples: 877
- name: pt
num_bytes: 29942156
num_examples: 44558
- name: ro
num_bytes: 103813
num_examples: 187
- name: ru
num_bytes: 2320647
num_examples: 1671
- name: zh
num_bytes: 11481632
num_examples: 10612
download_size: 302082086
dataset_size: 91000241570
---
# Dataset Card for "pubmed_preprocess"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
rntc
原始信息汇总
数据集概述
数据集配置
- 默认配置:包含多个语言分片的数据文件路径。
- 法语 (fr):路径为
data/fr-* - 英语 (en):路径为
data/en-* - 西班牙语 (es):路径为
data/es-* - 德语 (de):路径为
data/de-* - 意大利语 (it):路径为
data/it-* - 荷兰语 (nl):路径为
data/nl-* - 波兰语 (pl):路径为
data/pl-* - 葡萄牙语 (pt):路径为
data/pt-* - 罗马尼亚语 (ro):路径为
data/ro-* - 俄语 (ru):路径为
data/ru-* - 中文 (zh):路径为
data/zh-*
- 法语 (fr):路径为
数据集信息
-
特征:
- 文本 (text):数据类型为字符串 (string)
-
分片信息:
- 法语 (fr):
- 字节数:30,582,169
- 样本数:28,715
- 英语 (en):
- 字节数:90,868,163,767
- 样本数:97,816,514
- 西班牙语 (es):
- 字节数:9,925,215
- 样本数:14,671
- 德语 (de):
- 字节数:46,540,591
- 样本数:53,202
- 意大利语 (it):
- 字节数:79,767
- 样本数:125
- 荷兰语 (nl):
- 字节数:373,829
- 样本数:461
- 波兰语 (pl):
- 字节数:727,984
- 样本数:877
- 葡萄牙语 (pt):
- 字节数:29,942,156
- 样本数:44,558
- 罗马尼亚语 (ro):
- 字节数:103,813
- 样本数:187
- 俄语 (ru):
- 字节数:2,320,647
- 样本数:1,671
- 中文 (zh):
- 字节数:11,481,632
- 样本数:10,612
- 法语 (fr):
-
下载大小:302,082,086 字节
-
数据集大小:91,000,241,570 字节



