Cohere/wikipedia-22-12-es-embeddings
收藏Hugging Face2023-03-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/wikipedia-22-12-es-embeddings
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用cohere.ai的`multilingual-22-12`嵌入模型对西班牙语维基百科进行编码,生成了每篇文章的标题、文本及其对应的嵌入向量。该嵌入模型支持100种语言的语义搜索。数据集还提供了加载数据和进行语义搜索的示例代码,并展示了该模型在MIRACL数据集上的性能表现。
提供机构:
Cohere
原始信息汇总
数据集概述
基本信息
- 语言: 西班牙语 (es)
- 多语言支持: 多语言
- 任务类别: 文本检索
- 许可证: Apache-2.0
- 任务ID: 文档检索
数据集内容
- 数据集使用 cohere.ai 的
multilingual-22-12嵌入模型对 Wikipedia (es) 进行编码。 - 嵌入计算基于
title+" "+text,使用的是支持100种语言语义搜索的先进模型。
数据集加载
-
数据集可通过以下Python代码加载: python from datasets import load_dataset docs = load_dataset("Cohere/wikipedia-22-12-es-embeddings", split="train")
-
也可通过流式加载,无需预先下载: python from datasets import load_dataset docs = load_dataset("Cohere/wikipedia-22-12-es-embeddings", split="train", streaming=True)
搜索示例
- 提供了一个完整的搜索示例,展示了如何使用Cohere API和数据集中的嵌入进行查询和检索。
其他语言支持
- 数据集还提供了多种语言的Wikipedia嵌入,包括阿拉伯语、德语、英语、法语、印地语、意大利语、日语、韩语、简单英语和中文。



