chronbmm/sanskrit-monolingual-pretraining-corrupted
收藏Hugging Face2023-04-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chronbmm/sanskrit-monolingual-pretraining-corrupted
下载链接
链接失效反馈官方服务:
资源简介:
该数据集可能包含梵文单语预训练数据,且数据可能存在损坏。数据集包括input_ids、attention_mask和labels等特征,分为训练、验证和测试集。
数据集信息:
特征字段:
- 名称:输入Token ID(input_ids),序列类型:int32
- 名称:注意力掩码(attention_mask),序列类型:int8
- 名称:标签(labels),序列类型:int64
数据集划分:
- 训练集(train),字节占用量:7630102597,样本数量:21371582
- 验证集(val),字节占用量:17259654,样本数量:26247
- 测试集(test),字节占用量:17259654,样本数量:26247
下载大小:1093207625 字节
数据集总存储大小:7664621905 字节
---
# “带噪梵语单语预训练(sanskrit-monolingual-pretraining-corrupted)”数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
chronbmm
原始信息汇总
数据集概述
数据集名称
sanskrit-monolingual-pretraining-corrupted
数据集特征
- input_ids:整数序列,类型为 int32。
- attention_mask:整数序列,类型为 int8。
- labels:整数序列,类型为 int64。
数据集分割
- 训练集 (train):
- 示例数量:21371582
- 数据大小:7630102597 字节
- 验证集 (val):
- 示例数量:26247
- 数据大小:17259654 字节
- 测试集 (test):
- 示例数量:26247
- 数据大小:17259654 字节
数据集大小
- 下载大小:1093207625 字节
- 数据集总大小:7664621905 字节



