five

Cohere/miracl-yo-queries-22-12

收藏
Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-yo-queries-22-12
下载链接
链接失效反馈
官方服务:
资源简介:
MIRACL(多语言信息检索跨语言连续体)是一个多语言检索数据集,专注于18种不同语言的搜索,这些语言共同涵盖了全球超过30亿的母语者。每个语言的语料库从Wikipedia转储中准备,仅保留纯文本并丢弃图像、表格等。每篇文章使用WikiExtractor基于自然话语单元(如wiki标记中的` `)分割成多个段落。每个段落构成一个“文档”或检索单元。我们保留了每个段落的Wikipedia文章标题。数据集使用cohere.ai的`multilingual-22-12`嵌入模型进行编码,提供了查询嵌入和语料库嵌入。
提供机构:
Cohere
原始信息汇总

数据集概述

名称: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)

语言: 包含18种语言,其中重点关注语言为约鲁巴语(yo)。

类型: 多语言信息检索数据集

数据来源: 数据集的文本内容来源于维基百科的文本数据,通过WikiExtractor处理,保留了文章标题和段落文本。

数据集结构

文档组成: 每个文档由维基百科文章的标题和文本段落组成。

嵌入模型: 使用cohere.ai的multilingual-22-12嵌入模型计算title+" "+text的嵌入,该模型支持100种语言的语义搜索。

数据集使用

加载方式: 可以通过datasets.load_dataset函数加载数据集,支持流式加载以减少内存占用。

搜索方法: 使用点积(dot-product)比较查询嵌入与文档嵌入,推荐使用向量数据库进行大规模数据集的搜索。

性能评估

评估指标: 使用nDCG@10和hit@3评估模型性能。

比较模型: 对比了cohere的multilingual-22-12模型与Elasticsearch 8.6.0的性能。

结果: multilingual-22-12模型在多数语言上的表现优于Elasticsearch,特别是在不支持的语言上。平均nDCG@10为51.7,hit@3为67.5。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作