BroDeadlines/TEST.PART_CLUSTER.raptor.edu_tdt_data
收藏Hugging Face2024-06-24 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/BroDeadlines/TEST.PART_CLUSTER.raptor.edu_tdt_data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,包括文本、嵌入向量、聚类结果、文档ID和层级ID等。数据集被分为多个测试集,如basic_tdt_raptor、medium_tdt_raptor等,每个测试集有不同的字节大小和样本数量。数据集的下载大小为36268626字节,总大小为52400851字节。
The dataset contains multiple feature fields, including text, embedding vectors, clustering results, document IDs, and level IDs. The dataset is divided into several test sets, such as basic_tdt_raptor, medium_tdt_raptor, etc., each with different byte sizes and sample counts. The download size of the dataset is 36268626 bytes, and the total size is 52400851 bytes.
提供机构:
BroDeadlines
原始信息汇总
数据集信息
特征
- text: 数据类型为字符串。
- embd: 序列类型为float64。
- cluster: 序列类型为float64。
- doc_ids: 数据类型为字符串。
- level_id: 数据类型为字符串。
- index_level_0: 数据类型为int64。
分割
- TEST.basic_tdt_raptor:
- 字节数: 871692
- 样本数: 117
- TEST.medium_tdt_raptor:
- 字节数: 16266124
- 样本数: 1925
大小
- 下载大小: 14459601 字节
- 数据集大小: 17137816 字节
配置
- default:
- 数据文件:
- TEST.basic_tdt_raptor: 路径为
data/TEST.basic_tdt_raptor-* - TEST.medium_tdt_raptor: 路径为
data/TEST.medium_tdt_raptor-*
- TEST.basic_tdt_raptor: 路径为
- 数据文件:



