Cohere/miracl-ko-corpus-22-12
收藏Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-ko-corpus-22-12
下载链接
链接失效反馈官方服务:
资源简介:
MIRACL(多语言信息检索跨语言连续体)是一个多语言检索数据集,专注于18种不同语言的搜索,这些语言共同涵盖了全球超过30亿的母语使用者。每个语言的语料库来自Wikipedia的转储,仅保留纯文本并丢弃图像、表格等内容。每篇文章根据自然话语单元(如Wiki标记中的`
`)分割成多个段落,每个段落被视为一个检索单元。我们使用cohere.ai的`multilingual-22-12`嵌入模型对标题和文本进行嵌入计算,该模型支持100种语言的语义搜索。
提供机构:
Cohere
原始信息汇总
数据集概述
数据集名称
- MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
语言
- 多语言(18种语言)
任务类别
- 文本检索
许可证
- Apache-2.0
数据集内容
- 数据集由维基百科的纯文本内容组成,每个文章被分割成多个基于自然话语单位的段落,每个段落作为一个检索单元。
数据集处理
- 使用
multilingual-22-12嵌入模型对数据集进行编码,该模型支持100种语言的语义搜索。
数据集加载
- 数据集可以通过
load_dataset函数加载,支持流式加载。
搜索方法
- 使用点积(dot-product)进行文档搜索,推荐使用向量数据库。
性能评估
- 比较了cohere的
multilingual-22-12模型与Elasticsearch 8.6.0的性能,使用nDCG@10和hit@3作为评估指标。
性能结果
multilingual-22-12模型的平均nDCG@10为51.7,hit@3为67.5,优于Elasticsearch的平均nDCG@10 34.7和hit@3 46.0。



