Cohere/miracl-bn-corpus-22-12

Name: Cohere/miracl-bn-corpus-22-12
Creator: Cohere
Published: 2023-02-06 12:01:45
License: 暂无描述

Hugging Face2023-02-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Cohere/miracl-bn-corpus-22-12

下载链接

链接失效反馈

官方服务：

资源简介：

MIRACL 🌍🙌🌏（跨语言连续体的多语言信息检索）是一个专注于18种不同语言检索的多语言检索数据集，这些语言共同涵盖了全球超过30亿的母语使用者。每种语言的语料库都是从维基百科的转储中准备的，我们只保留纯文本并丢弃图像、表格等。每篇文章使用WikiExtractor根据自然话语单元（例如，维基标记中的` `）分割成多个段落。每个段落构成一个“文档”或检索单元。我们保留了每个段落的维基百科文章标题。

MIRACL 🌍🙌🌏 (Multilingual Information Retrieval across Language Continua) is a multilingual information retrieval dataset focused on 18 distinct languages, which collectively cover over 3 billion native speakers globally. The corpus for each language is prepared from Wikipedia dumps, where only plain text is retained while images, tables and other non-text elements are discarded. Each article is split into multiple paragraphs using WikiExtractor based on natural discourse units (e.g., the `<p>` tag in Wikipedia markup). Each paragraph constitutes a "document" or retrieval unit, and the Wikipedia article title of each paragraph is preserved.

提供机构：

Cohere

原始信息汇总

数据集概述

数据集名称与描述

名称: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
描述: 一个多语言检索数据集，专注于18种不同语言的搜索，覆盖超过30亿母语使用者。

数据集内容

语言: 包含18种语言，其中主要语言为孟加拉语（bn）。
数据准备: 从维基百科转储中准备，保留纯文本，每个文章被分割成多个基于自然话语单位的段落。
数据结构: 每个段落作为一个检索单元，保留原始维基百科文章标题。

数据集使用

嵌入模型: 使用cohere.ai的multilingual-22-12模型计算title+" "+text的嵌入，支持100种语言的语义搜索。
数据集加载: 提供查询和文档嵌入，可通过Python代码直接加载或流式加载。
搜索方法: 使用点积进行搜索，推荐使用向量数据库。

性能评估

评估指标: nDCG@10和hit@3。
性能比较: 与Elasticsearch 8.6.0进行比较，cohere multilingual-22-12模型在多语言支持上表现更优。

许可证

许可证: Apache-2.0

任务类别

任务类别: 文档检索
任务ID: document-retrieval

5,000+

优质数据集

54 个

任务类型

进入经典数据集