linhphanff/bert-vietnamse-nomic-embed-mlm-dummy

Name: linhphanff/bert-vietnamse-nomic-embed-mlm-dummy
Creator: linhphanff
Published: 2024-03-08 06:42:26
License: 暂无描述

Hugging Face2024-03-08 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/linhphanff/bert-vietnamse-nomic-embed-mlm-dummy

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与自然语言处理任务相关的特征，特别是适用于BERT等预训练模型的使用。数据集包括四个主要特征：input_ids（输入ID序列）、token_type_ids（标记类型ID序列）、attention_mask（注意力掩码序列）和special_tokens_mask（特殊标记掩码序列）。数据集仅包含一个训练分割，共有699个样本，总大小为10032048字节。

提供机构：

linhphanff

原始信息汇总

数据集概述

许可证

Apache 2.0

数据集信息

特征：
- input_ids：序列类型，数据类型为int32
- token_type_ids：序列类型，数据类型为int8
- attention_mask：序列类型，数据类型为int8
- special_tokens_mask：序列类型，数据类型为int8
分割：
- train：包含10032048字节，699个样本
下载大小：2444063字节
数据集大小：10032048字节

配置

默认配置：
- 数据文件路径：data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集