Cohere/miracl-fi-corpus-22-12
收藏MIRACL (fi) 数据集概述
基本信息
- 标注创建者: 专家生成
- 语言: 芬兰语
- 多语言性: 多语言
- 任务类别: 文本检索
- 许可证: Apache 2.0
- 任务ID: 文档检索
数据集描述
MIRACL(Multilingual Information Retrieval Across a Continuum of Languages)是一个多语言检索数据集,专注于18种不同语言的搜索,这些语言共同覆盖了全球超过30亿母语使用者。每个语言的语料库是从维基百科转储中准备的,只保留纯文本,丢弃图像、表格等。每个文章被WikiExtractor基于自然话语单元(例如,`
`在维基标记中)分割成多个段落。每个段落构成一个“文档”或检索单元,并保留了维基百科文章标题。
嵌入
我们使用multilingual-22-12嵌入模型计算title+" "+text的嵌入,这是一个适用于100种语言语义搜索的先进模型。
数据集加载
- 语料库嵌入: 可在miracl-fi-corpus-22-12中找到。
- 查询嵌入: 可在miracl-fi-queries-22-12中找到。
加载示例
python from datasets import load_dataset docs = load_dataset("Cohere/miracl-fi-corpus-22-12", split="train")
流式加载示例
python from datasets import load_dataset docs = load_dataset("Cohere/miracl-fi-corpus-22-12", split="train", streaming=True) for doc in docs: docid = doc[docid] title = doc[title] text = doc[text] emb = doc[emb]
搜索
使用点积(dot-product)进行文档搜索,并比较查询嵌入与文档嵌入。
搜索示例
python from datasets import load_dataset import torch
加载文档和嵌入
docs = load_dataset("Cohere/miracl-fi-corpus-22-12", split="train") doc_embeddings = torch.tensor(docs[emb])
加载查询
queries = load_dataset("Cohere/miracl-fi-queries-22-12", split="dev")
选择第一个查询作为示例
qid = 0 query = queries[qid] query_embedding = torch.tensor(queries[emb])
计算查询嵌入和文档嵌入的点积
dot_scores = torch.mm(query_embedding, doc_embeddings.transpose(0, 1)) top_k = torch.topk(dot_scores, k=3)
打印结果
print("Query:", query[query]) for doc_id in top_k.indices[0].tolist(): print(docs[doc_id][title]) print(docs[doc_id][text])
性能
比较了cohere的multilingual-22-12模型与Elasticsearch 8.6.0的词法搜索性能,使用nDCG@10和hit@3作为评估指标。
性能表
| 模型 | cohere multilingual-22-12 nDCG@10 | cohere multilingual-22-12 hit@3 | ES 8.6.0 nDCG@10 | ES 8.6.0 acc@3 |
|---|---|---|---|---|
| miracl-fi | 63.7 | 76.2 | 51.4 | 61.6 |
进一步语言(不支持Elasticsearch):
| 模型 | cohere multilingual-22-12 nDCG@10 | cohere multilingual-22-12 hit@3 |
|---|---|---|
| miracl-fi | 63.7 | 76.2 |



