Cohere/miracl-te-corpus-22-12

Name: Cohere/miracl-te-corpus-22-12
Creator: Cohere
Published: 2023-02-06 12:00:45
License: 暂无描述

Hugging Face2023-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Cohere/miracl-te-corpus-22-12

下载链接

链接失效反馈

官方服务：

资源简介：

MIRACL（多语言信息检索跨语言）是一个专注于跨18种不同语言搜索的多语言检索数据集。该数据集的文本内容来源于维基百科的纯文本，每个文章被分割成多个基于自然话语单位的段落。数据集使用了cohere.ai的`multilingual-22-12`嵌入模型进行编码，提供了查询和文档的嵌入，支持在100种语言中进行语义搜索。

提供机构：

Cohere

原始信息汇总

数据集概述

数据集名称

MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)

语言

泰卢固语 (te)
多语言支持

任务类别

文本检索

许可证

Apache-2.0

数据集内容

数据集由维基百科的纯文本内容组成，每个文章被分割成多个基于自然话语单位的段落，每个段落作为一个检索单元。
每个段落保留了维基百科的文章标题。

数据集处理

使用multilingual-22-12嵌入模型计算title+" "+text的嵌入。
查询嵌入可在Cohere/miracl-te-queries-22-12获取。
文集嵌入可在Cohere/miracl-te-corpus-22-12获取。

数据集加载

可通过from datasets import load_dataset加载数据集。
支持流式加载，无需预先下载。

搜索方法

使用点积进行文档搜索。
推荐使用向量数据库进行查询嵌入与文档嵌入的比较。

性能评估

比较了cohere multilingual-22-12模型与Elasticsearch 8.6.0的性能。
评估指标包括nDCG@10和hit@3。
部分语言不支持Elasticsearch，因此性能评估仅限于支持的语言。

注释创建者

专家生成

数据集大小与来源

数据集大小类别及来源数据集未明确列出。