mrm8488/spanish_biomedical_ds_tokenized_and_gropuped

Name: mrm8488/spanish_biomedical_ds_tokenized_and_gropuped
Creator: mrm8488
Published: 2023-03-08 15:05:01
License: 暂无描述

Hugging Face2023-03-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mrm8488/spanish_biomedical_ds_tokenized_and_gropuped

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: input_ids sequence: int32 splits: - name: train num_bytes: 3601107900 num_examples: 878319 - name: test num_bytes: 187816900 num_examples: 45809 download_size: 1807775268 dataset_size: 3788924800 --- # Dataset Card for "spanish_biomedical_ds_tokenized_and_gropuped" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 数据集信息：特征： - 名称：输入Token标识（input_ids），类型为32位整型序列数据划分： - 名称：训练集（train），占用字节数：3601107900，样本总数：878319 - 名称：测试集（test），占用字节数：187816900，样本总数：45809 下载总大小：1807775268 数据集总存储大小：3788924800 --- # 「分词与分组西班牙生物医学数据集」（spanish_biomedical_ds_tokenized_and_gropuped）数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

mrm8488

原始信息汇总

数据集概述

数据集名称

spanish_biomedical_ds_tokenized_and_gropuped

数据集特征

名称: input_ids
序列类型: int32

数据集分割

训练集
- 示例数量: 878319
- 数据大小: 3601107900 字节
测试集
- 示例数量: 45809
- 数据大小: 187816900 字节

数据集大小

下载大小: 1807775268 字节
总数据集大小: 3788924800 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集