Cohere/miracl-de-queries-22-12
收藏Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-de-queries-22-12
下载链接
链接失效反馈官方服务:
资源简介:
MIRACL (de)数据集是使用cohere.ai的`multilingual-22-12`嵌入模型对MIRACL数据集进行编码的结果。该数据集主要用于跨语言文本检索任务,特别是针对德语。数据集包含查询嵌入和语料库嵌入,分别存储在不同的HuggingFace数据集中。原数据来自MIRACL项目,该项目的语料库是从维基百科转储中提取的,仅保留纯文本,并将每篇文章分割成多个段落。每个段落被视为一个检索单元,并保留了维基百科文章的标题。嵌入模型`multilingual-22-12`是一个支持100种语言的语义搜索模型。
The MIRACL (de) dataset is the result of encoding the original MIRACL dataset using the `multilingual-22-12` embedding model provided by cohere.ai. This dataset is primarily designed for cross-lingual text retrieval tasks, with a particular focus on the German language. It contains query embeddings and corpus embeddings, which are stored in separate Hugging Face datasets respectively. The original data originates from the MIRACL project, whose corpus is extracted from Wikipedia dumps, retaining only plain text and splitting each article into multiple paragraphs. Each paragraph is regarded as a retrieval unit, while the title of the corresponding Wikipedia article is preserved. The `multilingual-22-12` embedding model is a semantic search model that supports 100 languages.
提供机构:
Cohere
原始信息汇总
数据集概述
基本信息
- 名称: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
- 语言: 多语言,包括德语 (de)
- 许可证: Apache-2.0
- 任务类别: 文本检索
- 任务ID: 文档检索
数据集描述
- 内容来源: 每个语言的语料库来自Wikipedia的文本部分,去除了图片、表格等非文本元素。
- 数据处理: 使用WikiExtractor将每篇文章分割成多个基于自然话语单位的段落,每个段落作为一个检索单元。
嵌入模型
- 模型名称: cohere.ai
multilingual-22-12 - 功能: 支持100种语言的语义搜索
- 使用方法: 计算
title+" "+text的嵌入
数据集结构
- 查询嵌入: 位于Cohere/miracl-de-queries-22-12
- 语料库嵌入: 位于Cohere/miracl-de-corpus-22-12
加载与搜索
- 加载方法: 使用
from datasets import load_dataset加载数据集,支持流式加载。 - 搜索方法: 使用点积(dot-product)进行搜索,比较查询嵌入与文档嵌入。
性能比较
- 比较模型: cohere multilingual-22-12 与 Elasticsearch 8.6.0
- 评估指标: nDCG@10 和 hit@3
- 结果: cohere multilingual-22-12 在多数语言上表现优于 Elasticsearch 8.6.0
总结
MIRACL是一个专注于多语言信息检索的数据集,支持18种语言,使用cohere.ai的multilingual-22-12模型进行嵌入处理,适用于跨语言文本检索任务。



