five

rntc/pubmed_preprocess

收藏
Hugging Face2023-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rntc/pubmed_preprocess
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: fr path: data/fr-* - split: en path: data/en-* - split: es path: data/es-* - split: de path: data/de-* - split: it path: data/it-* - split: nl path: data/nl-* - split: pl path: data/pl-* - split: pt path: data/pt-* - split: ro path: data/ro-* - split: ru path: data/ru-* - split: zh path: data/zh-* dataset_info: features: - name: text dtype: string splits: - name: fr num_bytes: 30582169 num_examples: 28715 - name: en num_bytes: 90868163767 num_examples: 97816514 - name: es num_bytes: 9925215 num_examples: 14671 - name: de num_bytes: 46540591 num_examples: 53202 - name: it num_bytes: 79767 num_examples: 125 - name: nl num_bytes: 373829 num_examples: 461 - name: pl num_bytes: 727984 num_examples: 877 - name: pt num_bytes: 29942156 num_examples: 44558 - name: ro num_bytes: 103813 num_examples: 187 - name: ru num_bytes: 2320647 num_examples: 1671 - name: zh num_bytes: 11481632 num_examples: 10612 download_size: 302082086 dataset_size: 91000241570 --- # Dataset Card for "pubmed_preprocess" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
rntc
原始信息汇总

数据集概述

数据集配置

  • 默认配置:包含多个语言分片的数据文件路径。
    • 法语 (fr):路径为 data/fr-*
    • 英语 (en):路径为 data/en-*
    • 西班牙语 (es):路径为 data/es-*
    • 德语 (de):路径为 data/de-*
    • 意大利语 (it):路径为 data/it-*
    • 荷兰语 (nl):路径为 data/nl-*
    • 波兰语 (pl):路径为 data/pl-*
    • 葡萄牙语 (pt):路径为 data/pt-*
    • 罗马尼亚语 (ro):路径为 data/ro-*
    • 俄语 (ru):路径为 data/ru-*
    • 中文 (zh):路径为 data/zh-*

数据集信息

  • 特征

    • 文本 (text):数据类型为字符串 (string)
  • 分片信息

    • 法语 (fr)
      • 字节数:30,582,169
      • 样本数:28,715
    • 英语 (en)
      • 字节数:90,868,163,767
      • 样本数:97,816,514
    • 西班牙语 (es)
      • 字节数:9,925,215
      • 样本数:14,671
    • 德语 (de)
      • 字节数:46,540,591
      • 样本数:53,202
    • 意大利语 (it)
      • 字节数:79,767
      • 样本数:125
    • 荷兰语 (nl)
      • 字节数:373,829
      • 样本数:461
    • 波兰语 (pl)
      • 字节数:727,984
      • 样本数:877
    • 葡萄牙语 (pt)
      • 字节数:29,942,156
      • 样本数:44,558
    • 罗马尼亚语 (ro)
      • 字节数:103,813
      • 样本数:187
    • 俄语 (ru)
      • 字节数:2,320,647
      • 样本数:1,671
    • 中文 (zh)
      • 字节数:11,481,632
      • 样本数:10,612
  • 下载大小:302,082,086 字节

  • 数据集大小:91,000,241,570 字节

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作