nikhilchigali/wikianswers_embeddings_768
收藏Hugging Face2024-03-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/nikhilchigali/wikianswers_embeddings_768
下载链接
链接失效反馈官方服务:
资源简介:
`nikhilchigali/wikianswers_embeddings_768`是`embedding-data/WikiAnswers`数据集的一个子集,仅包含原数据集的0.13%的行。数据集中的句子被展开为单独的项目,并带有相应的集群ID以标识来自同一组的句子。每个句子都有其关联的集群ID和768维的嵌入。数据集的语言为英语,每个例子包含一个句子和它的集群ID,同一集群中的句子是彼此的释义。嵌入是使用`all-distilroberta-v1`模型生成的。
`nikhilchigali/wikianswers_embeddings_768`是`embedding-data/WikiAnswers`数据集的一个子集,仅包含原数据集的0.13%的行。数据集中的句子被展开为单独的项目,并带有相应的集群ID以标识来自同一组的句子。每个句子都有其关联的集群ID和768维的嵌入。数据集的语言为英语,每个例子包含一个句子和它的集群ID,同一集群中的句子是彼此的释义。嵌入是使用`all-distilroberta-v1`模型生成的。
提供机构:
nikhilchigali
原始信息汇总
数据集概述
数据集nikhilchigali/wikianswers_embeddings_768是embedding-data/WikiAnswers的一个子集,包含原始数据集的0.13%的行数。该数据集将句子集合解开为单独的项,每个项带有相应的集群ID,用于识别来自同一集合的句子。每个句子都有其关联的集群ID和维度为768的嵌入。
数据集结构
-
特征:
sentence: 字符串类型cluster: 整数类型embedding_768: 浮点数序列类型,维度768
-
分割:
train: 包含990526个示例,总大小为3106089249字节
-
数据文件:
train: 路径为data/train-*
语言
数据集语言为英语。
使用示例
python from datasets import load_dataset dataset = load_dataset("nikhilchigali/wikianswers_embeddings_768")
数据集加载后,每个示例包含sentence, cluster, 和 embedding_768三个特征。



