five

zen-E/NEWS5M-simcse-roberta-large-embeddings-pca-256

收藏
Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zen-E/NEWS5M-simcse-roberta-large-embeddings-pca-256
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了ffgcc/NEWS5M中的所有数据,这些数据的文本嵌入是由princeton-nlp/unsup-simcse-roberta-large生成的。这些特征通过PCA被转换为256维。数据集的任务类别是句子相似性,语言为英语,规模在1M到10M之间。
提供机构:
zen-E
原始信息汇总

数据集概述

任务类别

  • 句子相似度

语言

  • 英语

数据规模

  • 1M<n<10M

描述

  • 该数据集包含 ffgcc/NEWS5M 中的所有数据,对应的文本嵌入由 princeton-nlp/unsup-simcse-roberta-large 生成。特征通过PCA转换为256维。

使用方法

python news5M_kd_pca_dataset_unsup = torch.load(./NEWS5M-simcse-roberta-large-embeddings-pca-256/news5M_kd_pca_dataset_unsup.pt)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作