Cohere/miracl-hi-queries-22-12

Name: Cohere/miracl-hi-queries-22-12
Creator: Cohere
Published: 2023-02-06 12:02:28
License: 暂无描述

Hugging Face2023-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Cohere/miracl-hi-queries-22-12

下载链接

链接失效反馈

官方服务：

资源简介：

MIRACL（多语言信息检索跨语言连续体）是一个多语言检索数据集，专注于18种不同语言的搜索，这些语言共同涵盖了全球超过30亿的母语使用者。每个语言的语料库来自Wikipedia的转储，仅保留纯文本并丢弃图像、表格等。每篇文章使用WikiExtractor根据自然话语单元（例如，维基标记中的` `）分割成多个段落。每个段落被视为一个“文档”或检索单元。我们保留了每个段落的Wikipedia文章标题。数据集使用cohere.ai的`multilingual-22-12`嵌入模型进行编码，提供了查询嵌入和语料库嵌入。

MIRACL (Multilingual Information Retrieval Cross-Lingual Continuum) is a multilingual retrieval dataset focusing on search across 18 distinct languages, which collectively cover over 3 billion native speakers worldwide. The corpus for each language is sourced from Wikipedia dumps, where only plain text is retained while images, tables and other non-text content are discarded. Each article is split into multiple paragraphs using WikiExtractor based on natural discourse units (e.g., the paragraph delimiters marked by ` ` in Wikipedia markup). Each paragraph is treated as a "document" or retrieval unit, and the Wikipedia article title corresponding to each paragraph is retained. The dataset is encoded using cohere.ai's `multilingual-22-12` embedding model, providing both query embeddings and corpus embeddings.

提供机构：

Cohere

原始信息汇总

数据集概述

名称: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)

语言: 多语言，涵盖18种语言

任务类别: 文本检索

任务ID: 文档检索

许可证: Apache-2.0

数据集构成:

查询嵌入: 位于 Cohere/miracl-hi-queries-22-12
语料库嵌入: 位于 Cohere/miracl-hi-corpus-22-12

数据集来源: 每个语言的语料库来源于Wikipedia dump，保留纯文本，每个文章被分割成多个基于自然话语单位的段落。

嵌入模型

使用multilingual-22-12嵌入模型计算title+" "+text的嵌入，该模型支持100种语言的语义搜索。

数据集加载

可通过以下Python代码加载数据集： python from datasets import load_dataset docs = load_dataset(f"Cohere/miracl-hi-corpus-22-12", split="train")

搜索方法

搜索时需使用点积（dot-product）计算查询嵌入与文档嵌入的相似度。

性能比较

对比了cohere multilingual-22-12模型与Elasticsearch 8.6.0的性能，使用了nDCG@10和hit@3作为评估指标。结果显示，cohere multilingual-22-12模型在多数语言上的表现优于Elasticsearch。

5,000+

优质数据集

54 个

任务类型

进入经典数据集