Cohere/wikipedia-22-12-en-embeddings
收藏Hugging Face2023-03-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/wikipedia-22-12-en-embeddings
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用cohere.ai的`multilingual-22-12`编码器对英文Wikipedia进行了嵌入处理。数据集的主要用途是文本检索,特别是文档检索。它包含了Wikipedia文章的标题和文本的嵌入表示,并且支持多种语言的嵌入。数据集可以通过Hugging Face的`datasets`库加载,并且提供了搜索示例代码,展示了如何使用嵌入进行语义搜索。此外,README还提供了性能评估的参考链接,指向MIRACL数据集上的表现。
This dataset embeds the English Wikipedia using the `multilingual-22-12` encoder from cohere.ai. The primary use case of this dataset is text retrieval, particularly document retrieval. It contains embedding representations of Wikipedia article titles and their corresponding text, and supports embeddings for multiple languages. The dataset can be loaded via Hugging Face's `datasets` library, and accompanying search example code is provided to demonstrate how to use the embeddings for semantic search. In addition, the README provides a reference link for performance evaluation, pointing to the results on the MIRACL dataset.
提供机构:
Cohere
原始信息汇总
数据集概述
基本信息
- 语言: 英语(en)
- 多语言支持: 多语言
- 任务类别: 文本检索
- 许可证: Apache-2.0
- 任务ID: 文档检索
数据集内容
- 数据集使用cohere.ai的
multilingual-22-12嵌入模型对英文维基百科进行编码。 - 嵌入计算基于
title+" "+text,使用的是支持100种语言语义搜索的先进模型。
其他语言支持
- 提供多种语言的维基百科嵌入,包括但不限于阿拉伯语(ar)、德语(de)、英语(en)、西班牙语(es)、法语(fr)、印地语(hi)、意大利语(it)、日语(ja)、韩语(ko)、简单英语(simple english)、中文(zh)。
数据集加载
-
可通过以下Python代码加载数据集: python from datasets import load_dataset docs = load_dataset(f"Cohere/wikipedia-22-12-en-embeddings", split="train")
或以流式方式加载: python from datasets import load_dataset docs = load_dataset(f"Cohere/wikipedia-22-12-en-embeddings", split="train", streaming=True)
搜索示例
- 提供了一个完整的搜索示例,展示了如何使用Cohere API和数据集中的嵌入进行查询和检索。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



