five

Cohere/miracl-de-corpus-22-12

收藏
Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-de-corpus-22-12
下载链接
链接失效反馈
官方服务:
资源简介:
MIRACL (de)数据集是使用cohere.ai的`multilingual-22-12`嵌入模型对MIRACL数据集进行编码的结果。该数据集专注于跨18种不同语言的信息检索,涵盖了全球超过30亿的母语使用者。每个语言的语料库是从维基百科转储中准备的,仅保留纯文本并丢弃图像、表格等内容。每篇文章根据自然话语单元(如维基标记中的` `)分割成多个段落,每个段落构成一个“文档”或检索单元。我们保留了每个段落的维基百科文章标题。
提供机构:
Cohere
原始信息汇总

数据集概述

数据集名称

  • MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)

语言

  • 多语言(18种语言)

任务类别

  • 文本检索

许可证

  • Apache-2.0

数据集内容

  • 数据集由维基百科的纯文本组成,每个文章被分割成多个基于自然话语单元的段落,每个段落作为一个检索单元。

嵌入模型

  • 使用cohere.ai的multilingual-22-12嵌入模型计算title+" "+text的嵌入,该模型支持100种语言的语义搜索。

数据集加载

  • 提供两种加载方式:常规加载和流式加载。

搜索方法

  • 使用点积计算查询嵌入与文档嵌入的相似度。

性能评估

  • 对比cohere multilingual-22-12模型与Elasticsearch 8.6.0的性能,使用nDCG@10和hit@3作为评估指标。

数据集详细信息

嵌入数据

原始数据集

性能对比

模型 cohere multilingual-22-12 nDCG@10 cohere multilingual-22-12 hit@3 ES 8.6.0 nDCG@10 ES 8.6.0 acc@3
miracl-ar 64.2 75.2 46.8 56.2
miracl-bn 61.5 75.7 49.2 60.1
miracl-de 44.4 60.7 19.6 29.8
miracl-en 44.6 62.2 30.2 43.2
miracl-es 47.0 74.1 27.0 47.2
miracl-fi 63.7 76.2 51.4 61.6
miracl-fr 46.8 57.1 17.0 21.6
miracl-hi 50.7 62.9 41.0 48.9
miracl-id 44.8 63.8 39.2 54.7
miracl-ru 49.2 66.9 25.4 36.7
Avg 51.7 67.5 34.7 46.0

其他语言性能

模型 cohere multilingual-22-12 nDCG@10 cohere multilingual-22-12 hit@3
miracl-fa 44.8 53.6
miracl-ja 49.0 61.0
miracl-ko 50.9 64.8
miracl-sw 61.4 74.5
miracl-te 67.8 72.3
miracl-th 60.2 71.9
miracl-yo 56.4 62.2
miracl-zh 43.8 56.5
Avg 54.3 64.6
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作