anzorq/hf-spaces-descriptions-embeddings
收藏HF Spaces Descriptions and Embeddings 数据集
数据集详情
- 名称: HF Spaces Descriptions and Embeddings
- 创建者: anzorq
- 许可证: MIT
数据集结构
特征
- id: 字符串类型
- description: 字符串类型
- embedding: 浮点数序列类型
分割
- train:
- 字节数: 94758018
- 样本数: 29718
大小
- 下载大小: 78891306
- 数据集大小: 94758018
数据集用途
该数据集可用于自然语言处理(NLP)任务,如语义搜索、聚类等。
加载数据集
python from datasets import load_dataset
加载数据集
dataset = load_dataset("anzorq/hf-spaces-descriptions-embeddings")
访问不同分割
train_split = dataset[train]
语义搜索示例
python import torch from sentence_transformers import SentenceTransformer from datasets import load_dataset import numpy as np
加载数据集
dataset = load_dataset("anzorq/hf-spaces-descriptions-embeddings")
加载 SentenceTransformer 模型
model = SentenceTransformer(all-MiniLM-L6-v2)
示例查询
query = "Removing background from images"
编码查询
query_embedding = model.encode([query], convert_to_tensor=True)
获取空间描述和嵌入
descriptions = dataset[train][description] embeddings = np.array(dataset[train][embedding])
计算余弦相似度
cosine_scores = torch.nn.functional.cosine_similarity(query_embedding, torch.tensor(embeddings))
排序结果
top_k = torch.topk(cosine_scores, k=5)
打印前 k 个结果
print("Query:", query) for idx in top_k.indices[0]: print("Space ID:", dataset[train][id][idx]) print("Description:", descriptions[idx]) print("Score:", cosine_scores[idx].item())



