sanjin7/embedding_dataset_distilbert_base_uncased_ad_subwords

Name: sanjin7/embedding_dataset_distilbert_base_uncased_ad_subwords
Creator: sanjin7
Published: 2023-01-16 11:12:24
License: 暂无描述

Hugging Face2023-01-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sanjin7/embedding_dataset_distilbert_base_uncased_ad_subwords

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: ad_id dtype: int64 - name: shop_id dtype: int64 - name: account_id dtype: int64 - name: mean_embedding sequence: float32 - name: cls_embedding sequence: float32 splits: - name: test num_bytes: 5725152 num_examples: 927 - name: train num_bytes: 43769312 num_examples: 7087 - name: val num_bytes: 7726176 num_examples: 1251 download_size: 69324552 dataset_size: 57220640 --- # Dataset Card for "embedding_dataset_distilbert_base_uncased_ad_subwords" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征字段： - 字段名：广告ID（ad_id），数据类型：64位整数（int64） - 字段名：店铺ID（shop_id），数据类型：64位整数（int64） - 字段名：账户ID（account_id），数据类型：64位整数（int64） - 字段名：平均嵌入向量（mean_embedding），数据类型：单精度浮点型（float32）序列 - 字段名：CLS嵌入向量（cls_embedding），数据类型：单精度浮点型（float32）序列数据集划分： - 划分名称：test（测试集），字节数：5725152，样本数量：927 - 划分名称：train（训练集），字节数：43769312，样本数量：7087 - 划分名称：val（验证集），字节数：7726176，样本数量：1251 下载总大小：69324552，数据集总大小：57220640 --- # 「embedding_dataset_distilbert_base_uncased_ad_subwords」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

sanjin7

原始信息汇总

数据集概述

数据集特征

ad_id: 数据类型为 int64。
shop_id: 数据类型为 int64。
account_id: 数据类型为 int64。
mean_embedding: 数据类型为 float32，序列类型。
cls_embedding: 数据类型为 float32，序列类型。

数据集分割

test: 包含927个样本，占用5725152字节。
train: 包含7087个样本，占用43769312字节。
val: 包含1251个样本，占用7726176字节。

数据集大小

下载大小: 69324552字节。
数据集大小: 57220640字节。

5,000+

优质数据集

54 个

任务类型

进入经典数据集