five

Cohere/miracl-ru-corpus-22-12

收藏
Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-ru-corpus-22-12
下载链接
链接失效反馈
官方服务:
资源简介:
MIRACL (ru) 数据集是一个多语言信息检索数据集,专注于俄语的搜索任务。数据集使用cohere.ai的`multilingual-22-12`嵌入模型进行编码,提供了查询嵌入和语料库嵌入。数据集的内容来源于Wikipedia,每个文章被分割成多个段落,每个段落被视为一个检索单元。数据集主要用于文本检索任务,特别是文档检索。README文件还提供了加载数据集和进行搜索的代码示例,并比较了cohere模型与Elasticsearch的性能。
提供机构:
Cohere
原始信息汇总

数据集概述

名称: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)

语言: 多语言,包括18种语言

任务类别: 文本检索

许可证: Apache-2.0

任务ID: document-retrieval

数据集内容

  • 来源: 数据集的文档部分来源于维基百科的文本,通过WikiExtractor工具分割成多个基于自然话语单位的段落。
  • 结构: 每个段落作为一个检索单元,包含文档ID、标题和文本内容。

数据集处理

数据集加载

  • 加载方式: 可通过from datasets import load_dataset直接加载或流式加载。

数据集搜索

  • 搜索方法: 使用点积(dot-product)比较查询嵌入与文档嵌入。
  • 示例代码: 提供了使用PyTorch计算点积的示例。

性能比较

  • 比较模型: cohere multilingual-22-12与Elasticsearch 8.6.0。
  • 评估指标: nDCG@10和hit@3。
  • 结果: 提供了不同语言子集的性能数据,显示cohere multilingual-22-12在多数语言上优于Elasticsearch。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作