Cohere/miracl-th-queries-22-12

Name: Cohere/miracl-th-queries-22-12
Creator: Cohere
Published: 2023-02-06 12:01:19
License: 暂无描述

Hugging Face2023-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Cohere/miracl-th-queries-22-12

下载链接

链接失效反馈

官方服务：

资源简介：

MIRACL是一个多语言信息检索数据集，专注于跨18种不同语言的搜索，这些语言覆盖了全球超过30亿母语使用者。数据集中的每个语言的语料库都是从维基百科的转储中准备的，只保留纯文本，并使用WikiExtractor基于自然话语单元（如` `在维基标记中）将每篇文章分割成多个段落。每个段落构成一个检索单元或文档。数据集使用cohere.ai的`multilingual-22-12`嵌入模型进行编码，该模型支持100种语言的语义搜索。

提供机构：

Cohere

原始信息汇总

数据集概述

数据集名称

MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)

语言支持

多语言支持，涵盖18种语言

数据来源

数据来源于Wikipedia的纯文本内容，通过WikiExtractor分割成多个基于自然语篇单位的段落。

数据集内容

每个段落作为一个检索单元，包含标题和文本内容。

数据集使用

使用multilingual-22-12嵌入模型计算title+" "+text的嵌入。
提供查询嵌入和文档嵌入，用于文档检索任务。

数据集加载

可通过datasets.load_dataset函数加载，支持流式加载。

检索方法

使用点积（dot-product）进行文档检索。

性能评估

对比cohere的multilingual-22-12模型与Elasticsearch 8.6.0的检索性能。
评估指标包括nDCG@10和hit@3。

许可证

Apache-2.0

任务类别

文本检索

任务ID

document-retrieval

5,000+

优质数据集

54 个

任务类型

进入经典数据集