five

Cohere/miracl-bn-corpus-22-12

收藏
Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-bn-corpus-22-12
下载链接
链接失效反馈
官方服务:
资源简介:
MIRACL 🌍🙌🌏(跨语言连续体的多语言信息检索)是一个专注于18种不同语言检索的多语言检索数据集,这些语言共同涵盖了全球超过30亿的母语使用者。每种语言的语料库都是从维基百科的转储中准备的,我们只保留纯文本并丢弃图像、表格等。每篇文章使用WikiExtractor根据自然话语单元(例如,维基标记中的` `)分割成多个段落。每个段落构成一个“文档”或检索单元。我们保留了每个段落的维基百科文章标题。

MIRACL 🌍🙌🌏 (Multilingual Information Retrieval across Language Continua) is a multilingual information retrieval dataset focused on 18 distinct languages, which collectively cover over 3 billion native speakers globally. The corpus for each language is prepared from Wikipedia dumps, where only plain text is retained while images, tables and other non-text elements are discarded. Each article is split into multiple paragraphs using WikiExtractor based on natural discourse units (e.g., the `<p>` tag in Wikipedia markup). Each paragraph constitutes a "document" or retrieval unit, and the Wikipedia article title of each paragraph is preserved.
提供机构:
Cohere
原始信息汇总

数据集概述

数据集名称与描述

  • 名称: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
  • 描述: 一个多语言检索数据集,专注于18种不同语言的搜索,覆盖超过30亿母语使用者。

数据集内容

  • 语言: 包含18种语言,其中主要语言为孟加拉语(bn)。
  • 数据准备: 从维基百科转储中准备,保留纯文本,每个文章被分割成多个基于自然话语单位的段落。
  • 数据结构: 每个段落作为一个检索单元,保留原始维基百科文章标题。

数据集使用

  • 嵌入模型: 使用cohere.ai的multilingual-22-12模型计算title+" "+text的嵌入,支持100种语言的语义搜索。
  • 数据集加载: 提供查询和文档嵌入,可通过Python代码直接加载或流式加载。
  • 搜索方法: 使用点积进行搜索,推荐使用向量数据库。

性能评估

  • 评估指标: nDCG@10和hit@3。
  • 性能比较: 与Elasticsearch 8.6.0进行比较,cohere multilingual-22-12模型在多语言支持上表现更优。

许可证

  • 许可证: Apache-2.0

任务类别

  • 任务类别: 文档检索
  • 任务ID: document-retrieval
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作