Cohere/miracl-ja-corpus-22-12
收藏MIRACL (ja) 数据集概述
基本信息
- 标注创建者: 专家生成
- 语言: 日语
- 多语言性: 多语言
- 任务类别: 文本检索
- 许可证: Apache 2.0
- 任务ID: 文档检索
数据集描述
MIRACL(Multilingual Information Retrieval Across a Continuum of Languages)是一个多语言检索数据集,专注于18种不同语言的搜索,这些语言共同覆盖了全球超过30亿母语使用者。每个语言的语料库是从维基百科转储中准备的,只保留纯文本,丢弃图像、表格等。每个文章被WikiExtractor基于自然论述单元(例如,`
`在维基标记中)分割成多个段落。每个段落构成一个“文档”或检索单元,并保留了维基百科文章标题。
嵌入
我们使用multilingual-22-12嵌入模型计算title+" "+text的嵌入,这是一个支持100种语言语义搜索的先进模型。
数据集加载
语料库嵌入
-
加载方式: python from datasets import load_dataset docs = load_dataset("Cohere/miracl-ja-corpus-22-12", split="train")
或者流式加载: python from datasets import load_dataset docs = load_dataset("Cohere/miracl-ja-corpus-22-12", split="train", streaming=True) for doc in docs: docid = doc[docid] title = doc[title] text = doc[text] emb = doc[emb]
查询嵌入
搜索
搜索文档时必须使用点积。可以与向量数据库(推荐)或直接计算点积进行比较。
搜索示例
python from datasets import load_dataset import torch
加载文档和嵌入
docs = load_dataset("Cohere/miracl-ja-corpus-22-12", split="train") doc_embeddings = torch.tensor(docs[emb])
加载查询
queries = load_dataset("Cohere/miracl-ja-queries-22-12", split="dev")
选择第一个查询作为示例
qid = 0 query = queries[qid] query_embedding = torch.tensor(queries[emb])
计算查询嵌入和文档嵌入的点积
dot_scores = torch.mm(query_embedding, doc_embeddings.transpose(0, 1)) top_k = torch.topk(dot_scores, k=3)
打印结果
print("Query:", query[query]) for doc_id in top_k.indices[0].tolist(): print(docs[doc_id][title]) print(docs[doc_id][text])
性能
我们比较了cohere multilingual-22-12模型与Elasticsearch 8.6.0的词法搜索性能。我们计算了nDCG@10(一种基于排名的损失)和hit@3(至少有一个相关文档在top-3结果中)。
性能比较表
| 模型 | cohere multilingual-22-12 nDCG@10 | cohere multilingual-22-12 hit@3 | ES 8.6.0 nDCG@10 | ES 8.6.0 acc@3 |
|---|---|---|---|---|
| miracl-ar | 64.2 | 75.2 | 46.8 | 56.2 |
| miracl-bn | 61.5 | 75.7 | 49.2 | 60.1 |
| miracl-de | 44.4 | 60.7 | 19.6 | 29.8 |
| miracl-en | 44.6 | 62.2 | 30.2 | 43.2 |
| miracl-es | 47.0 | 74.1 | 27.0 | 47.2 |
| miracl-fi | 63.7 | 76.2 | 51.4 | 61.6 |
| miracl-fr | 46.8 | 57.1 | 17.0 | 21.6 |
| miracl-hi | 50.7 | 62.9 | 41.0 | 48.9 |
| miracl-id | 44.8 | 63.8 | 39.2 | 54.7 |
| miracl-ru | 49.2 | 66.9 | 25.4 | 36.7 |
| Avg | 51.7 | 67.5 | 34.7 | 46.0 |
进一步语言(不支持Elasticsearch)
| 模型 | cohere multilingual-22-12 nDCG@10 | cohere multilingual-22-12 hit@3 |
|---|---|---|
| miracl-fa | 44.8 | 53.6 |
| miracl-ja | 49.0 | 61.0 |
| miracl-ko | 50.9 | 64.8 |
| miracl-sw | 61.4 | 74.5 |
| miracl-te | 67.8 | 72.3 |
| miracl-th | 60.2 | 71.9 |
| miracl-yo | 56.4 | 62.2 |
| miracl-zh | 43.8 | 56.5 |
| Avg | 54.3 | 64.6 |



