five

Cohere/miracl-ja-corpus-22-12

收藏
Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-ja-corpus-22-12
下载链接
链接失效反馈
官方服务:
资源简介:
MIRACL(跨语言信息检索)是一个多语言检索数据集,专注于18种不同语言的搜索,这些语言涵盖了全球超过30亿的母语使用者。每个语言的语料库是从维基百科的转储中准备的,仅保留纯文本并丢弃图像、表格等内容。每篇文章根据自然话语单元(如维基标记中的` `)分割成多个段落,每个段落构成一个“文档”或检索单元。我们保留了每个段落的维基百科文章标题。该数据集的日语版本使用了cohere.ai的`multilingual-22-12`嵌入模型进行编码,提供了查询嵌入和语料库嵌入。
提供机构:
Cohere
原始信息汇总

MIRACL (ja) 数据集概述

基本信息

  • 标注创建者: 专家生成
  • 语言: 日语
  • 多语言性: 多语言
  • 任务类别: 文本检索
  • 许可证: Apache 2.0
  • 任务ID: 文档检索

数据集描述

MIRACL(Multilingual Information Retrieval Across a Continuum of Languages)是一个多语言检索数据集,专注于18种不同语言的搜索,这些语言共同覆盖了全球超过30亿母语使用者。每个语言的语料库是从维基百科转储中准备的,只保留纯文本,丢弃图像、表格等。每个文章被WikiExtractor基于自然论述单元(例如,`

`在维基标记中)分割成多个段落。每个段落构成一个“文档”或检索单元,并保留了维基百科文章标题。

嵌入

我们使用multilingual-22-12嵌入模型计算title+" "+text的嵌入,这是一个支持100种语言语义搜索的先进模型。

数据集加载

语料库嵌入

  • 数据集路径: Cohere/miracl-ja-corpus-22-12

  • 加载方式: python from datasets import load_dataset docs = load_dataset("Cohere/miracl-ja-corpus-22-12", split="train")

    或者流式加载: python from datasets import load_dataset docs = load_dataset("Cohere/miracl-ja-corpus-22-12", split="train", streaming=True) for doc in docs: docid = doc[docid] title = doc[title] text = doc[text] emb = doc[emb]

查询嵌入

搜索

搜索文档时必须使用点积。可以与向量数据库(推荐)或直接计算点积进行比较。

搜索示例

python from datasets import load_dataset import torch

加载文档和嵌入

docs = load_dataset("Cohere/miracl-ja-corpus-22-12", split="train") doc_embeddings = torch.tensor(docs[emb])

加载查询

queries = load_dataset("Cohere/miracl-ja-queries-22-12", split="dev")

选择第一个查询作为示例

qid = 0 query = queries[qid] query_embedding = torch.tensor(queries[emb])

计算查询嵌入和文档嵌入的点积

dot_scores = torch.mm(query_embedding, doc_embeddings.transpose(0, 1)) top_k = torch.topk(dot_scores, k=3)

打印结果

print("Query:", query[query]) for doc_id in top_k.indices[0].tolist(): print(docs[doc_id][title]) print(docs[doc_id][text])

性能

我们比较了cohere multilingual-22-12模型与Elasticsearch 8.6.0的词法搜索性能。我们计算了nDCG@10(一种基于排名的损失)和hit@3(至少有一个相关文档在top-3结果中)。

性能比较表

模型 cohere multilingual-22-12 nDCG@10 cohere multilingual-22-12 hit@3 ES 8.6.0 nDCG@10 ES 8.6.0 acc@3
miracl-ar 64.2 75.2 46.8 56.2
miracl-bn 61.5 75.7 49.2 60.1
miracl-de 44.4 60.7 19.6 29.8
miracl-en 44.6 62.2 30.2 43.2
miracl-es 47.0 74.1 27.0 47.2
miracl-fi 63.7 76.2 51.4 61.6
miracl-fr 46.8 57.1 17.0 21.6
miracl-hi 50.7 62.9 41.0 48.9
miracl-id 44.8 63.8 39.2 54.7
miracl-ru 49.2 66.9 25.4 36.7
Avg 51.7 67.5 34.7 46.0

进一步语言(不支持Elasticsearch)

模型 cohere multilingual-22-12 nDCG@10 cohere multilingual-22-12 hit@3
miracl-fa 44.8 53.6
miracl-ja 49.0 61.0
miracl-ko 50.9 64.8
miracl-sw 61.4 74.5
miracl-te 67.8 72.3
miracl-th 60.2 71.9
miracl-yo 56.4 62.2
miracl-zh 43.8 56.5
Avg 54.3 64.6
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作