five

Cohere/miracl-ko-queries-22-12

收藏
Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-ko-queries-22-12
下载链接
链接失效反馈
官方服务:
资源简介:
MIRACL(韩语)数据集是一个多语言信息检索数据集,专注于18种不同语言的搜索任务,这些语言涵盖了全球超过30亿的母语使用者。数据集的语料库来自维基百科的转储,每个文章被分割成多个段落,每个段落被视为一个检索单元。数据集使用了cohere.ai的`multilingual-22-12`编码器进行嵌入,提供了查询嵌入和语料库嵌入。用户可以通过HuggingFace的`datasets`库加载这些嵌入,并使用点积进行搜索。README还提供了如何使用这些嵌入进行搜索的示例代码,并比较了cohere.ai的嵌入模型与Elasticsearch在多个语言上的性能表现。
提供机构:
Cohere
原始信息汇总

数据集概述

基本信息

  • 名称: MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)
  • 语言: 多语言,专注于18种语言
  • 许可证: Apache-2.0
  • 任务类别: 文本检索
  • 任务ID: 文档检索

数据集内容

  • 来源: 每个语言的语料库来自维基百科的转储,仅保留纯文本,去除图片、表格等。
  • 处理: 使用WikiExtractor将每篇文章分割成多个基于自然话语单元的段落,每个段落构成一个检索单元。

嵌入技术

  • 模型: 使用cohere.ai的multilingual-22-12嵌入模型计算title+" "+text的嵌入,该模型支持100种语言的语义搜索。

数据集加载

搜索方法

  • 搜索技术: 使用点积计算查询嵌入与文档嵌入之间的相似度。
  • 示例代码: 提供了完整的搜索示例,包括加载文档和查询、计算点积分数及结果展示。

性能评估

  • 评估指标: nDCG@10和hit@3
  • 比较模型: cohere multilingual-22-12与Elasticsearch 8.6.0
  • 结果: cohere multilingual-22-12在多数语言上的表现优于Elasticsearch,特别是在不支持Elasticsearch的语言上。

结论

MIRACL是一个多语言检索数据集,通过先进的嵌入技术支持跨语言的文本检索任务,性能优越,适用于多种语言环境。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作