Cohere/miracl-de-corpus-22-12
收藏Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-de-corpus-22-12
下载链接
链接失效反馈官方服务:
资源简介:
MIRACL (de)数据集是使用cohere.ai的`multilingual-22-12`嵌入模型对MIRACL数据集进行编码的结果。该数据集专注于跨18种不同语言的信息检索,涵盖了全球超过30亿的母语使用者。每个语言的语料库是从维基百科转储中准备的,仅保留纯文本并丢弃图像、表格等内容。每篇文章根据自然话语单元(如维基标记中的`
`)分割成多个段落,每个段落构成一个“文档”或检索单元。我们保留了每个段落的维基百科文章标题。
提供机构:
Cohere
原始信息汇总
数据集概述
数据集名称
- MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
语言
- 多语言(18种语言)
任务类别
- 文本检索
许可证
- Apache-2.0
数据集内容
- 数据集由维基百科的纯文本组成,每个文章被分割成多个基于自然话语单元的段落,每个段落作为一个检索单元。
嵌入模型
- 使用cohere.ai的
multilingual-22-12嵌入模型计算title+" "+text的嵌入,该模型支持100种语言的语义搜索。
数据集加载
- 提供两种加载方式:常规加载和流式加载。
搜索方法
- 使用点积计算查询嵌入与文档嵌入的相似度。
性能评估
- 对比cohere multilingual-22-12模型与Elasticsearch 8.6.0的性能,使用nDCG@10和hit@3作为评估指标。
数据集详细信息
嵌入数据
原始数据集
性能对比
| 模型 | cohere multilingual-22-12 nDCG@10 | cohere multilingual-22-12 hit@3 | ES 8.6.0 nDCG@10 | ES 8.6.0 acc@3 |
|---|---|---|---|---|
| miracl-ar | 64.2 | 75.2 | 46.8 | 56.2 |
| miracl-bn | 61.5 | 75.7 | 49.2 | 60.1 |
| miracl-de | 44.4 | 60.7 | 19.6 | 29.8 |
| miracl-en | 44.6 | 62.2 | 30.2 | 43.2 |
| miracl-es | 47.0 | 74.1 | 27.0 | 47.2 |
| miracl-fi | 63.7 | 76.2 | 51.4 | 61.6 |
| miracl-fr | 46.8 | 57.1 | 17.0 | 21.6 |
| miracl-hi | 50.7 | 62.9 | 41.0 | 48.9 |
| miracl-id | 44.8 | 63.8 | 39.2 | 54.7 |
| miracl-ru | 49.2 | 66.9 | 25.4 | 36.7 |
| Avg | 51.7 | 67.5 | 34.7 | 46.0 |
其他语言性能
| 模型 | cohere multilingual-22-12 nDCG@10 | cohere multilingual-22-12 hit@3 |
|---|---|---|
| miracl-fa | 44.8 | 53.6 |
| miracl-ja | 49.0 | 61.0 |
| miracl-ko | 50.9 | 64.8 |
| miracl-sw | 61.4 | 74.5 |
| miracl-te | 67.8 | 72.3 |
| miracl-th | 60.2 | 71.9 |
| miracl-yo | 56.4 | 62.2 |
| miracl-zh | 43.8 | 56.5 |
| Avg | 54.3 | 64.6 |



