Cohere/miracl-fi-queries-22-12
收藏Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-fi-queries-22-12
下载链接
链接失效反馈官方服务:
资源简介:
MIRACL(跨语言信息检索)是一个多语言检索数据集,专注于18种不同语言的搜索,这些语言涵盖了全球超过30亿的母语使用者。每个语言的语料库来自Wikipedia的文本内容,去除了图片、表格等非文本信息。每篇文章被分割成多个段落,每个段落被视为一个检索单元。数据集通过cohere.ai的`multilingual-22-12`嵌入模型进行编码,提供了查询嵌入和语料库嵌入。
提供机构:
Cohere
原始信息汇总
数据集概述
数据集名称
- MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
语言支持
- 多语言支持,涵盖18种语言
数据来源
- 数据来源于维基百科的文本内容,通过WikiExtractor进行文章分割,形成多个基于自然话语单元的段落。
数据集内容
- 每个段落作为一个“文档”或检索单元,保留了维基百科文章的标题。
数据集用途
- 用于多语言信息检索研究,特别是文本检索任务。
数据集版本
- 使用cohere.ai的
multilingual-22-12嵌入模型进行编码。
数据集组成部分
- 查询嵌入:位于Cohere/miracl-fi-queries-22-12
- 文库嵌入:位于Cohere/miracl-fi-corpus-22-12
数据集加载
- 可以使用
datasets库加载数据集,支持流式加载。
搜索方法
- 使用点积(dot-product)进行文档搜索。
性能评估
- 对比cohere的
multilingual-22-12模型与Elasticsearch 8.6.0的搜索性能,使用nDCG@10和hit@3作为评估指标。
许可证
- Apache-2.0



