zen-E/NEWS5M-simcse-roberta-large-embeddings-pca-256
收藏Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zen-E/NEWS5M-simcse-roberta-large-embeddings-pca-256
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了ffgcc/NEWS5M中的所有数据,这些数据的文本嵌入是由princeton-nlp/unsup-simcse-roberta-large生成的。这些特征通过PCA被转换为256维。数据集的任务类别是句子相似性,语言为英语,规模在1M到10M之间。
提供机构:
zen-E
原始信息汇总
数据集概述
任务类别
- 句子相似度
语言
- 英语
数据规模
- 1M<n<10M
描述
- 该数据集包含 ffgcc/NEWS5M 中的所有数据,对应的文本嵌入由 princeton-nlp/unsup-simcse-roberta-large 生成。特征通过PCA转换为256维。
使用方法
python news5M_kd_pca_dataset_unsup = torch.load(./NEWS5M-simcse-roberta-large-embeddings-pca-256/news5M_kd_pca_dataset_unsup.pt)



