Cohere/miracl-bn-corpus-22-12
收藏Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-bn-corpus-22-12
下载链接
链接失效反馈官方服务:
资源简介:
MIRACL 🌍🙌🌏(跨语言连续体的多语言信息检索)是一个专注于18种不同语言检索的多语言检索数据集,这些语言共同涵盖了全球超过30亿的母语使用者。每种语言的语料库都是从维基百科的转储中准备的,我们只保留纯文本并丢弃图像、表格等。每篇文章使用WikiExtractor根据自然话语单元(例如,维基标记中的`
`)分割成多个段落。每个段落构成一个“文档”或检索单元。我们保留了每个段落的维基百科文章标题。
MIRACL 🌍🙌🌏 (Multilingual Information Retrieval across Language Continua) is a multilingual information retrieval dataset focused on 18 distinct languages, which collectively cover over 3 billion native speakers globally. The corpus for each language is prepared from Wikipedia dumps, where only plain text is retained while images, tables and other non-text elements are discarded. Each article is split into multiple paragraphs using WikiExtractor based on natural discourse units (e.g., the `<p>` tag in Wikipedia markup). Each paragraph constitutes a "document" or retrieval unit, and the Wikipedia article title of each paragraph is preserved.
提供机构:
Cohere
原始信息汇总
数据集概述
数据集名称与描述
- 名称: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
- 描述: 一个多语言检索数据集,专注于18种不同语言的搜索,覆盖超过30亿母语使用者。
数据集内容
- 语言: 包含18种语言,其中主要语言为孟加拉语(bn)。
- 数据准备: 从维基百科转储中准备,保留纯文本,每个文章被分割成多个基于自然话语单位的段落。
- 数据结构: 每个段落作为一个检索单元,保留原始维基百科文章标题。
数据集使用
- 嵌入模型: 使用cohere.ai的
multilingual-22-12模型计算title+" "+text的嵌入,支持100种语言的语义搜索。 - 数据集加载: 提供查询和文档嵌入,可通过Python代码直接加载或流式加载。
- 搜索方法: 使用点积进行搜索,推荐使用向量数据库。
性能评估
- 评估指标: nDCG@10和hit@3。
- 性能比较: 与Elasticsearch 8.6.0进行比较,cohere multilingual-22-12模型在多语言支持上表现更优。
许可证
- 许可证: Apache-2.0
任务类别
- 任务类别: 文档检索
- 任务ID: document-retrieval



