Cohere/miracl-ko-corpus-22-12

Name: Cohere/miracl-ko-corpus-22-12
Creator: Cohere
Published: 2023-02-06 11:58:37
License: 暂无描述

Hugging Face2023-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Cohere/miracl-ko-corpus-22-12

下载链接

链接失效反馈

官方服务：

资源简介：

MIRACL（多语言信息检索跨语言连续体）是一个多语言检索数据集，专注于18种不同语言的搜索，这些语言共同涵盖了全球超过30亿的母语使用者。每个语言的语料库来自Wikipedia的转储，仅保留纯文本并丢弃图像、表格等内容。每篇文章根据自然话语单元（如Wiki标记中的` `）分割成多个段落，每个段落被视为一个检索单元。我们使用cohere.ai的`multilingual-22-12`嵌入模型对标题和文本进行嵌入计算，该模型支持100种语言的语义搜索。

提供机构：

Cohere

原始信息汇总

数据集概述

数据集名称

MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)

语言

多语言（18种语言）

任务类别

文本检索

许可证

Apache-2.0

数据集内容

数据集由维基百科的纯文本内容组成，每个文章被分割成多个基于自然话语单位的段落，每个段落作为一个检索单元。

数据集处理

使用multilingual-22-12嵌入模型对数据集进行编码，该模型支持100种语言的语义搜索。

数据集加载

数据集可以通过load_dataset函数加载，支持流式加载。

搜索方法

使用点积（dot-product）进行文档搜索，推荐使用向量数据库。

性能评估

比较了cohere的multilingual-22-12模型与Elasticsearch 8.6.0的性能，使用nDCG@10和hit@3作为评估指标。

性能结果

multilingual-22-12模型的平均nDCG@10为51.7，hit@3为67.5，优于Elasticsearch的平均nDCG@10 34.7和hit@3 46.0。

5,000+

优质数据集

54 个

任务类型

进入经典数据集