five

growth-cadet/signalrollups_subjects_desc_pt_embed1807

收藏
Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/growth-cadet/signalrollups_subjects_desc_pt_embed1807
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征字段,包括主题(Subject)、描述(Description)、类型(Kind)以及主题和描述的嵌入向量(embedding_subject_vector和embedding_subdesc_vector)。数据集被分割为训练集,包含60,029个样本,总大小为1,484,408,851.703537字节。该数据集可能用于自然语言处理任务,如文本分类、主题建模或语义分析等。

This dataset includes multiple feature fields such as Subject, Description, Kind, and embedding vectors for subject and description (embedding_subject_vector and embedding_subdesc_vector). The dataset is split into a training set containing 60,029 samples, with a total size of 1,484,408,851.703537 bytes. This dataset is likely used for natural language processing tasks such as text classification, topic modeling, or semantic analysis.
提供机构:
growth-cadet
原始信息汇总

数据集概述

数据集信息

  • 特征:

    • Subject: 类型为字符串。
    • Description: 类型为字符串。
    • Kind: 类型为字符串。
    • embedding_subject_vector: 类型为浮点数序列。
    • embedding_subdesc_vector: 类型为浮点数序列。
  • 分割:

    • train:
      • 字节数: 1484408851.703537
      • 样本数: 60029
  • 下载大小: 1116468971

  • 数据集大小: 1484408851.703537

配置

  • 配置名称: default
    • 数据文件:
      • 分割: train
      • 路径: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作