Cohere/miracl-ru-corpus-22-12

Name: Cohere/miracl-ru-corpus-22-12
Creator: Cohere
Published: 2023-02-06 11:56:20
License: 暂无描述

Hugging Face2023-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Cohere/miracl-ru-corpus-22-12

下载链接

链接失效反馈

官方服务：

资源简介：

MIRACL (ru) 数据集是一个多语言信息检索数据集，专注于俄语的搜索任务。数据集使用cohere.ai的`multilingual-22-12`嵌入模型进行编码，提供了查询嵌入和语料库嵌入。数据集的内容来源于Wikipedia，每个文章被分割成多个段落，每个段落被视为一个检索单元。数据集主要用于文本检索任务，特别是文档检索。README文件还提供了加载数据集和进行搜索的代码示例，并比较了cohere模型与Elasticsearch的性能。

提供机构：

Cohere

原始信息汇总

数据集概述

名称: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)

语言: 多语言，包括18种语言

任务类别: 文本检索

许可证: Apache-2.0

任务ID: document-retrieval

数据集内容

来源: 数据集的文档部分来源于维基百科的文本，通过WikiExtractor工具分割成多个基于自然话语单位的段落。
结构: 每个段落作为一个检索单元，包含文档ID、标题和文本内容。

数据集处理

嵌入模型: 使用cohere.ai的multilingual-22-12嵌入模型计算title+" "+text的嵌入。
嵌入存储: 查询嵌入存储在Cohere/miracl-ru-queries-22-12，文档嵌入存储在Cohere/miracl-ru-corpus-22-12。

数据集加载

加载方式: 可通过from datasets import load_dataset直接加载或流式加载。

数据集搜索

搜索方法: 使用点积（dot-product）比较查询嵌入与文档嵌入。
示例代码: 提供了使用PyTorch计算点积的示例。

性能比较

比较模型: cohere multilingual-22-12与Elasticsearch 8.6.0。
评估指标: nDCG@10和hit@3。
结果: 提供了不同语言子集的性能数据，显示cohere multilingual-22-12在多数语言上优于Elasticsearch。

5,000+

优质数据集

54 个

任务类型

进入经典数据集