growth-cadet/signalrollups_subjects_desc_pt_embed1807

Name: growth-cadet/signalrollups_subjects_desc_pt_embed1807
Creator: growth-cadet
Published: 2024-07-18 21:38:19
License: 暂无描述

Hugging Face2024-07-18 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/growth-cadet/signalrollups_subjects_desc_pt_embed1807

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征字段，包括主题（Subject）、描述（Description）、类型（Kind）以及主题和描述的嵌入向量（embedding_subject_vector和embedding_subdesc_vector）。数据集被分割为训练集，包含60,029个样本，总大小为1,484,408,851.703537字节。该数据集可能用于自然语言处理任务，如文本分类、主题建模或语义分析等。

This dataset includes multiple feature fields such as Subject, Description, Kind, and embedding vectors for subject and description (embedding_subject_vector and embedding_subdesc_vector). The dataset is split into a training set containing 60,029 samples, with a total size of 1,484,408,851.703537 bytes. This dataset is likely used for natural language processing tasks such as text classification, topic modeling, or semantic analysis.

提供机构：

growth-cadet

原始信息汇总

数据集概述

数据集信息

特征:
- Subject: 类型为字符串。
- Description: 类型为字符串。
- Kind: 类型为字符串。
- embedding_subject_vector: 类型为浮点数序列。
- embedding_subdesc_vector: 类型为浮点数序列。
分割:
- train:
  - 字节数: 1484408851.703537
  - 样本数: 60029
下载大小: 1116468971
数据集大小: 1484408851.703537

配置

配置名称: default
- 数据文件:
  - 分割: train
  - 路径: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集