Cohere/miracl-zh-queries-22-12
收藏Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-zh-queries-22-12
下载链接
链接失效反馈官方服务:
资源简介:
MIRACL(跨语言连续体多语言信息检索)是一个多语言检索数据集,专注于18种不同语言的搜索,这些语言涵盖了全球超过30亿的母语使用者。每个语言的语料库来自Wikipedia的转储文件,仅保留纯文本并丢弃图像、表格等内容。每篇文章根据自然话语单元(如Wiki标记中的`
`)分割成多个段落,每个段落构成一个“文档”或检索单元。我们保留了每个段落的Wikipedia文章标题。数据集使用cohere.ai的`multilingual-22-12`嵌入模型进行编码,提供了查询嵌入和语料库嵌入。
提供机构:
Cohere
原始信息汇总
数据集概述
数据集名称
MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
语言
- 中文
- 多语言支持
任务类别
- 文本检索
许可证
- Apache-2.0
任务ID
- 文档检索
数据集描述
MIRACL是一个多语言检索数据集,专注于18种不同语言的搜索,这些语言覆盖了全球超过30亿母语使用者。数据集的每个语言的语料库来源于维基百科的转储,仅保留纯文本,每个文章被分割成多个基于自然话语单位的段落,每个段落构成一个检索单元。
嵌入模型
使用multilingual-22-12嵌入模型计算title+" "+text的嵌入,该模型支持100种语言的语义搜索。
数据集加载
提供文档嵌入和查询嵌入,可通过以下方式加载: python from datasets import load_dataset docs = load_dataset(f"Cohere/miracl-zh-corpus-22-12", split="train")
搜索方法
搜索时需使用点积计算,比较查询嵌入与文档嵌入。
性能比较
比较了cohere multilingual-22-12模型与Elasticsearch 8.6.0的性能,使用了nDCG@10和hit@3指标。结果显示,cohere multilingual-22-12模型在多语言支持上表现更优。



