Cohere/miracl-th-queries-22-12
收藏Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-th-queries-22-12
下载链接
链接失效反馈官方服务:
资源简介:
MIRACL是一个多语言信息检索数据集,专注于跨18种不同语言的搜索,这些语言覆盖了全球超过30亿母语使用者。数据集中的每个语言的语料库都是从维基百科的转储中准备的,只保留纯文本,并使用WikiExtractor基于自然话语单元(如`
`在维基标记中)将每篇文章分割成多个段落。每个段落构成一个检索单元或文档。数据集使用cohere.ai的`multilingual-22-12`嵌入模型进行编码,该模型支持100种语言的语义搜索。
提供机构:
Cohere
原始信息汇总
数据集概述
数据集名称
- MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
语言支持
- 多语言支持,涵盖18种语言
数据来源
- 数据来源于Wikipedia的纯文本内容,通过WikiExtractor分割成多个基于自然语篇单位的段落。
数据集内容
- 每个段落作为一个检索单元,包含标题和文本内容。
数据集使用
- 使用
multilingual-22-12嵌入模型计算title+" "+text的嵌入。 - 提供查询嵌入和文档嵌入,用于文档检索任务。
数据集加载
- 可通过
datasets.load_dataset函数加载,支持流式加载。
检索方法
- 使用点积(dot-product)进行文档检索。
性能评估
- 对比cohere的
multilingual-22-12模型与Elasticsearch 8.6.0的检索性能。 - 评估指标包括nDCG@10和hit@3。
许可证
- Apache-2.0
任务类别
- 文本检索
任务ID
- document-retrieval



