Cohere/miracl-ru-corpus-22-12
收藏Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-ru-corpus-22-12
下载链接
链接失效反馈官方服务:
资源简介:
MIRACL (ru) 数据集是一个多语言信息检索数据集,专注于俄语的搜索任务。数据集使用cohere.ai的`multilingual-22-12`嵌入模型进行编码,提供了查询嵌入和语料库嵌入。数据集的内容来源于Wikipedia,每个文章被分割成多个段落,每个段落被视为一个检索单元。数据集主要用于文本检索任务,特别是文档检索。README文件还提供了加载数据集和进行搜索的代码示例,并比较了cohere模型与Elasticsearch的性能。
提供机构:
Cohere
原始信息汇总
数据集概述
名称: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
语言: 多语言,包括18种语言
任务类别: 文本检索
许可证: Apache-2.0
任务ID: document-retrieval
数据集内容
- 来源: 数据集的文档部分来源于维基百科的文本,通过WikiExtractor工具分割成多个基于自然话语单位的段落。
- 结构: 每个段落作为一个检索单元,包含文档ID、标题和文本内容。
数据集处理
- 嵌入模型: 使用cohere.ai的
multilingual-22-12嵌入模型计算title+" "+text的嵌入。 - 嵌入存储: 查询嵌入存储在Cohere/miracl-ru-queries-22-12,文档嵌入存储在Cohere/miracl-ru-corpus-22-12。
数据集加载
- 加载方式: 可通过
from datasets import load_dataset直接加载或流式加载。
数据集搜索
- 搜索方法: 使用点积(dot-product)比较查询嵌入与文档嵌入。
- 示例代码: 提供了使用PyTorch计算点积的示例。
性能比较
- 比较模型: cohere multilingual-22-12与Elasticsearch 8.6.0。
- 评估指标: nDCG@10和hit@3。
- 结果: 提供了不同语言子集的性能数据,显示cohere multilingual-22-12在多数语言上优于Elasticsearch。



