five

Cohere/miracl-ja-queries-22-12

收藏
Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-ja-queries-22-12
下载链接
链接失效反馈
官方服务:
资源简介:
MIRACL(多语言信息检索跨语言连续体)是一个多语言检索数据集,专注于18种不同语言的搜索,这些语言涵盖了全球超过30亿的母语使用者。每个语言的语料库都来自Wikipedia的转储文件,仅保留纯文本并丢弃图像、表格等内容。每篇文章根据自然话语单元(如Wiki标记中的` `)被分割成多个段落,每个段落构成一个“文档”或检索单元。我们保留了每个段落的Wikipedia文章标题。

MIRACL (Multilingual Information Retrieval Cross-Language Continuum) is a multilingual retrieval dataset focused on search tasks across 18 distinct languages, which together represent over 3 billion native speakers globally. The corpus for each language is compiled from Wikipedia dumps, retaining only plain text and excluding content such as images, tables, and other non-text elements. Each article is segmented into multiple paragraphs based on natural discourse units, such as the ` ` tag in Wiki markup, with each paragraph acting as a "document" or retrieval unit. The dataset preserves the Wikipedia article title associated with each paragraph.
提供机构:
Cohere
原始信息汇总

数据集概述

数据集名称

  • MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)

语言支持

  • 多语言支持,涵盖18种语言

数据来源

  • 数据源自维基百科的文本内容,去除了图像、表格等非文本元素,每篇文章被分割成多个基于自然语篇单元的段落。

任务类型

  • 文本检索

许可证

  • Apache-2.0

数据集结构

嵌入模型

  • 使用multilingual-22-12嵌入模型,支持100种语言的语义搜索。

加载与搜索

  • 数据集可通过load_dataset函数加载,支持流式加载。
  • 搜索时需使用点积计算查询嵌入与文档嵌入的相似度。

性能比较

  • 与Elasticsearch 8.6.0相比,cohere multilingual-22-12模型在多语言环境下的性能更优,尤其是在非英语语言中。

性能指标

  • 使用nDCG@10和hit@3评估,其中hit@3表示至少一个相关文档位于前三个结果中的查询比例。

数据集使用示例

加载数据集

python from datasets import load_dataset docs = load_dataset(f"Cohere/miracl-ja-corpus-22-12", split="train")

搜索示例

python from datasets import load_dataset import torch

Load documents + embeddings

docs = load_dataset(f"Cohere/miracl-ja-corpus-22-12", split="train") doc_embeddings = torch.tensor(docs[emb])

Load queries

queries = load_dataset(f"Cohere/miracl-ja-queries-22-12", split="dev")

Compute dot score between query embedding and document embeddings

dot_scores = torch.mm(query_embedding, doc_embeddings.transpose(0, 1)) top_k = torch.topk(dot_scores, k=3)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作