Cohere/miracl-yo-corpus-22-12

Name: Cohere/miracl-yo-corpus-22-12
Creator: Cohere
Published: 2023-02-06 11:54:24
License: 暂无描述

Hugging Face2023-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Cohere/miracl-yo-corpus-22-12

下载链接

链接失效反馈

官方服务：

资源简介：

MIRACL（跨语言连续体的多语言信息检索）是一个多语言检索数据集，专注于18种不同语言的搜索，这些语言共同涵盖了全球超过30亿的母语者。每种语言的语料库都从Wikipedia的转储中准备，我们只保留纯文本并丢弃图像、表格等。每篇文章使用WikiExtractor根据自然话语单位（例如，wiki标记中的` `）分割成多个段落。每个段落构成一个“文档”或检索单元。我们保留了每个段落的Wikipedia文章标题。

MIRACL (Multilingual Information Retrieval across Cross-Language Continuum) is a multilingual retrieval dataset focused on search across 18 distinct languages, which collectively account for over 3 billion native speakers globally. Corpora for each language are curated from Wikipedia dumps, where only plain text is preserved while images, tables, and other non-textual elements are discarded. Each article is split into multiple paragraphs via WikiExtractor based on natural discourse units (e.g., line breaks within wiki markup). Each paragraph serves as a standalone "document" or retrieval unit, and the Wikipedia article title of the source article corresponding to each paragraph is retained.

提供机构：

Cohere

原始信息汇总

数据集概述

名称: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)

语言: 包含18种语言，覆盖超过三亿母语使用者。

数据来源: 数据来源于维基百科的文本数据，通过WikiExtractor工具将文章分割成基于自然话语单元的多个段落。

数据结构: 每个段落作为一个检索单元，保留了维基百科的文章标题。

任务类型: 文本检索（Text-Retrieval）

许可证: Apache-2.0

数据集特点

多语言支持: 使用multilingual-22-12嵌入模型，支持100种语言的语义搜索。
数据集分割: 提供查询嵌入和文档嵌入，分别存储于Cohere/miracl-yo-queries-22-12和Cohere/miracl-yo-corpus-22-12。

使用方法

数据加载: 可通过datasets.load_dataset函数加载数据集，支持流式加载以减少内存占用。
搜索操作: 使用点积（dot-product）进行文档搜索，建议使用向量数据库进行大规模数据处理。

性能评估

评估指标: 使用nDCG@10和hit@3评估模型性能。
性能对比: 与Elasticsearch 8.6.0相比，cohere multilingual-22-12模型在多语言支持上表现更优。

示例代码

python

加载数据集

from datasets import load_dataset docs = load_dataset("Cohere/miracl-yo-corpus-22-12", split="train")

搜索示例

import torch from datasets import load_dataset

加载文档和查询

docs = load_dataset("Cohere/miracl-yo-corpus-22-12", split="train") queries = load_dataset("Cohere/miracl-yo-queries-22-12", split="dev")

计算点积得分

dot_scores = torch.mm(query_embedding, doc_embeddings.transpose(0, 1)) top_k = torch.topk(dot_scores, k=3)

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集