Cohere/wikipedia-22-12-hi-embeddings
收藏数据集概述
基本信息
- 标注创建者: 专家生成
- 语言: 印地语
- 多语言性: 多语言
- 任务类别: 文本检索
- 许可证: Apache 2.0
- 任务ID: 文档检索
数据集描述
该数据集包含使用cohere.ai的multilingual-22-12嵌入模型编码的印地语维基百科内容。该模型是一个支持100种语言语义搜索的先进模型。
嵌入计算
数据集中的每个条目(包括标题和文本)都通过multilingual-22-12嵌入模型计算了嵌入向量。
其他语言版本
该数据集还提供了其他多种语言版本的维基百科嵌入,包括阿拉伯语、德语、英语、西班牙语、法语、意大利语、日语、韩语、简体英语和中文。
数据集加载
数据集可以通过以下方式加载: python from datasets import load_dataset docs = load_dataset("Cohere/wikipedia-22-12-hi-embeddings", split="train")
或者以流式方式加载: python from datasets import load_dataset docs = load_dataset("Cohere/wikipedia-22-12-hi-embeddings", split="train", streaming=True) for doc in docs: docid = doc[id] title = doc[title] text = doc[text] emb = doc[emb]
搜索示例
以下是一个完整的搜索示例代码: python from datasets import load_dataset import torch import cohere
co = cohere.Client("<<COHERE_API_KEY>>") # 替换为你的Cohere API密钥
max_docs = 1000 docs_stream = load_dataset("Cohere/wikipedia-22-12-hi-embeddings", split="train", streaming=True)
docs = [] doc_embeddings = []
for doc in docs_stream: docs.append(doc) doc_embeddings.append(doc[emb]) if len(docs) >= max_docs: break
doc_embeddings = torch.tensor(doc_embeddings)
query = Who founded Youtube response = co.embed(texts=[query], model=multilingual-22-12) query_embedding = response.embeddings query_embedding = torch.tensor(query_embedding)
dot_scores = torch.mm(query_embedding, doc_embeddings.transpose(0, 1)) top_k = torch.topk(dot_scores, k=3)
print("Query:", query) for doc_id in top_k.indices[0].tolist(): print(docs[doc_id][title]) print(docs[doc_id][text], " ")



