zen-E/ANLI-simcse-roberta-large-embeddings-pca-256
收藏Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zen-E/ANLI-simcse-roberta-large-embeddings-pca-256
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了从https://sbert.net/datasets/AllNLI.tsv.gz中去除标记为neutral的数据,并且这些数据的文本嵌入是由princeton-nlp/unsup-simcse-roberta-large生成的。这些特征通过PCA对象被转换为256维。数据集的任务类别是句子相似性,语言为英语,规模在10万到100万之间。
提供机构:
zen-E
原始信息汇总
数据集概述
任务类别
- 句子相似度
语言
- 英语
数据规模
- 100K<n<1M
数据描述
- 该数据集包含除标记为neutral的AllNLI.tsv.gz数据外的所有数据,对应的文本嵌入由princeton-nlp/unsup-simcse-roberta-large生成。特征通过PCA对象转换为256维。



