five

BroDeadlines/TEST.PART_CLUSTER.raptor.edu_tdt_data

收藏
Hugging Face2024-06-24 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/BroDeadlines/TEST.PART_CLUSTER.raptor.edu_tdt_data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征字段,包括文本、嵌入向量、聚类结果、文档ID和层级ID等。数据集被分为多个测试集,如basic_tdt_raptor、medium_tdt_raptor等,每个测试集有不同的字节大小和样本数量。数据集的下载大小为36268626字节,总大小为52400851字节。

The dataset contains multiple feature fields, including text, embedding vectors, clustering results, document IDs, and level IDs. The dataset is divided into several test sets, such as basic_tdt_raptor, medium_tdt_raptor, etc., each with different byte sizes and sample counts. The download size of the dataset is 36268626 bytes, and the total size is 52400851 bytes.
提供机构:
BroDeadlines
原始信息汇总

数据集信息

特征

  • text: 数据类型为字符串。
  • embd: 序列类型为float64。
  • cluster: 序列类型为float64。
  • doc_ids: 数据类型为字符串。
  • level_id: 数据类型为字符串。
  • index_level_0: 数据类型为int64。

分割

  • TEST.basic_tdt_raptor:
    • 字节数: 871692
    • 样本数: 117
  • TEST.medium_tdt_raptor:
    • 字节数: 16266124
    • 样本数: 1925

大小

  • 下载大小: 14459601 字节
  • 数据集大小: 17137816 字节

配置

  • default:
    • 数据文件:
      • TEST.basic_tdt_raptor: 路径为 data/TEST.basic_tdt_raptor-*
      • TEST.medium_tdt_raptor: 路径为 data/TEST.medium_tdt_raptor-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作