growth-cadet/signalrollups_subjects_desc_pt_embed1807
收藏Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/growth-cadet/signalrollups_subjects_desc_pt_embed1807
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,包括主题(Subject)、描述(Description)、类型(Kind)以及主题和描述的嵌入向量(embedding_subject_vector和embedding_subdesc_vector)。数据集被分割为训练集,包含60,029个样本,总大小为1,484,408,851.703537字节。该数据集可能用于自然语言处理任务,如文本分类、主题建模或语义分析等。
This dataset includes multiple feature fields such as Subject, Description, Kind, and embedding vectors for subject and description (embedding_subject_vector and embedding_subdesc_vector). The dataset is split into a training set containing 60,029 samples, with a total size of 1,484,408,851.703537 bytes. This dataset is likely used for natural language processing tasks such as text classification, topic modeling, or semantic analysis.
提供机构:
growth-cadet
原始信息汇总
数据集概述
数据集信息
-
特征:
- Subject: 类型为字符串。
- Description: 类型为字符串。
- Kind: 类型为字符串。
- embedding_subject_vector: 类型为浮点数序列。
- embedding_subdesc_vector: 类型为浮点数序列。
-
分割:
- train:
- 字节数: 1484408851.703537
- 样本数: 60029
- train:
-
下载大小: 1116468971
-
数据集大小: 1484408851.703537
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
- 数据文件:



