chronbmm/sanskrit-monolingual-pretraining-corrupted

Name: chronbmm/sanskrit-monolingual-pretraining-corrupted
Creator: chronbmm
Published: 2023-04-22 02:47:21
License: 暂无描述

Hugging Face2023-04-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/chronbmm/sanskrit-monolingual-pretraining-corrupted

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集可能包含梵文单语预训练数据，且数据可能存在损坏。数据集包括input_ids、attention_mask和labels等特征，分为训练、验证和测试集。

数据集信息：特征字段： - 名称：输入Token ID（input_ids），序列类型：int32 - 名称：注意力掩码（attention_mask），序列类型：int8 - 名称：标签（labels），序列类型：int64 数据集划分： - 训练集（train），字节占用量：7630102597，样本数量：21371582 - 验证集（val），字节占用量：17259654，样本数量：26247 - 测试集（test），字节占用量：17259654，样本数量：26247 下载大小：1093207625 字节数据集总存储大小：7664621905 字节 --- # “带噪梵语单语预训练（sanskrit-monolingual-pretraining-corrupted）”数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

chronbmm

原始信息汇总

数据集概述

数据集名称

sanskrit-monolingual-pretraining-corrupted

数据集特征

input_ids：整数序列，类型为 int32。
attention_mask：整数序列，类型为 int8。
labels：整数序列，类型为 int64。

数据集分割

训练集 (train)：
- 示例数量：21371582
- 数据大小：7630102597 字节
验证集 (val)：
- 示例数量：26247
- 数据大小：17259654 字节
测试集 (test)：
- 示例数量：26247
- 数据大小：17259654 字节

数据集大小

下载大小：1093207625 字节
数据集总大小：7664621905 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集