Cohere/wikipedia-22-12-simple-embeddings
收藏Wikipedia (简单英语) 嵌入 cohere.ai multilingual-22-12 编码器
我们使用 cohere.ai 的 multilingual-22-12 嵌入模型对 Wikipedia (简单英语) 进行了编码。
嵌入
我们为 title+" "+text 计算嵌入,使用的是 multilingual-22-12 嵌入模型,这是一个在100种语言中进行语义搜索的先进模型。
更多语言
我们提供了多种语言的 Wikipedia 嵌入:
加载数据集
你可以这样加载数据集: python from datasets import load_dataset docs = load_dataset(f"Cohere/wikipedia-22-12-simple-embeddings", split="train")
或者你可以先不下载直接流式加载: python from datasets import load_dataset docs = load_dataset(f"Cohere/wikipedia-22-12-simple-embeddings", split="train", streaming=True)
for doc in docs: docid = doc[id] title = doc[title] text = doc[text] emb = doc[emb]
搜索示例
一个完整的搜索示例: python #Run: pip install cohere datasets from datasets import load_dataset import torch import cohere
co = cohere.Client(f"<<COHERE_API_KEY>>") # 添加你的 cohere API 密钥
加载最多1000个文档及其嵌入
max_docs = 1000 docs_stream = load_dataset(f"Cohere/wikipedia-22-12-simple-embeddings", split="train", streaming=True)
docs = [] doc_embeddings = []
for doc in docs_stream: docs.append(doc) doc_embeddings.append(doc[emb]) if len(docs) >= max_docs: break
doc_embeddings = torch.tensor(doc_embeddings)
query = Who founded Youtube response = co.embed(texts=[query], model=multilingual-22-12) query_embedding = response.embeddings query_embedding = torch.tensor(query_embedding)
计算查询嵌入和文档嵌入之间的点积分数
dot_scores = torch.mm(query_embedding, doc_embeddings.transpose(0, 1)) top_k = torch.topk(dot_scores, k=3)
打印结果
print("Query:", query) for doc_id in top_k.indices[0].tolist(): print(docs[doc_id][title]) print(docs[doc_id][text], " ")




