Cohere/miracl-bn-queries-22-12

Name: Cohere/miracl-bn-queries-22-12
Creator: Cohere
Published: 2023-02-06 12:01:34
License: 暂无描述

Hugging Face2023-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Cohere/miracl-bn-queries-22-12

下载链接

链接失效反馈

官方服务：

资源简介：

MIRACL（跨语言信息检索）是一个多语言检索数据集，涵盖了18种不同的语言，这些语言在全球范围内拥有超过30亿的母语使用者。每个语言的语料库均来自Wikipedia的转储文件，仅保留纯文本并丢弃图像、表格等内容。每篇文章根据自然话语单位（如Wiki标记中的` `）被分割成多个段落，每个段落构成一个“文档”或检索单元。我们保留了每个段落的Wikipedia文章标题。

提供机构：

Cohere

原始信息汇总

数据集概述

数据集名称与描述

名称: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
描述: 一个多语言检索数据集，专注于18种不同语言的搜索，涵盖超过30亿母语使用者。

数据集内容

语言: 包含18种语言，其中主要语言为孟加拉语（bn）。
数据来源: 数据来源于维基百科的文本内容，去除了图像、表格等非文本元素。
数据结构: 每篇文章被分割成多个基于自然话语单元的段落，每个段落作为一个检索单元。

数据集使用

编码模型: 使用cohere.ai的multilingual-22-12嵌入模型进行编码。
查询与文档嵌入: 查询嵌入可在Cohere/miracl-bn-queries-22-12获取，文档嵌入可在Cohere/miracl-bn-corpus-22-12获取。
检索方法: 使用点积（dot-product）进行文档搜索。

数据集加载

加载方式: 可通过datasets.load_dataset函数加载，支持流式加载以减少内存占用。

性能评估

评估指标: 使用nDCG@10和hit@3进行性能评估。
性能对比: 与Elasticsearch 8.6.0相比，cohere multilingual-22-12模型在多语言支持上有显著优势。

许可证

许可证: Apache-2.0

数据集使用示例

python from datasets import load_dataset docs = load_dataset("Cohere/miracl-bn-corpus-22-12", split="train")

流式加载示例

docs = load_dataset("Cohere/miracl-bn-corpus-22-12", split="train", streaming=True) for doc in docs: docid = doc[docid] title = doc[title] text = doc[text] emb = doc[emb]

搜索示例

python from datasets import load_dataset import torch

加载文档和嵌入

docs = load_dataset("Cohere/miracl-bn-corpus-22-12", split="train") doc_embeddings = torch.tensor(docs[emb])

加载查询

queries = load_dataset("Cohere/miracl-bn-queries-22-12", split="dev")

计算点积分数

dot_scores = torch.mm(query_embedding, doc_embeddings.transpose(0, 1)) top_k = torch.topk(dot_scores, k=3)

5,000+

优质数据集

54 个

任务类型

进入经典数据集