five

Cohere/miracl-te-corpus-22-12

收藏
Hugging Face2023-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/miracl-te-corpus-22-12
下载链接
链接失效反馈
官方服务:
资源简介:
MIRACL(多语言信息检索跨语言)是一个专注于跨18种不同语言搜索的多语言检索数据集。该数据集的文本内容来源于维基百科的纯文本,每个文章被分割成多个基于自然话语单位的段落。数据集使用了cohere.ai的`multilingual-22-12`嵌入模型进行编码,提供了查询和文档的嵌入,支持在100种语言中进行语义搜索。
提供机构:
Cohere
原始信息汇总

数据集概述

数据集名称

  • MIRACL (Multilingual Information Retrieval Across a Continuum of Languages)

语言

  • 泰卢固语 (te)
  • 多语言支持

任务类别

  • 文本检索

许可证

  • Apache-2.0

数据集内容

  • 数据集由维基百科的纯文本内容组成,每个文章被分割成多个基于自然话语单位的段落,每个段落作为一个检索单元。
  • 每个段落保留了维基百科的文章标题。

数据集处理

数据集加载

  • 可通过from datasets import load_dataset加载数据集。
  • 支持流式加载,无需预先下载。

搜索方法

  • 使用点积进行文档搜索。
  • 推荐使用向量数据库进行查询嵌入与文档嵌入的比较。

性能评估

  • 比较了cohere multilingual-22-12模型与Elasticsearch 8.6.0的性能。
  • 评估指标包括nDCG@10和hit@3。
  • 部分语言不支持Elasticsearch,因此性能评估仅限于支持的语言。

注释创建者

  • 专家生成

数据集大小与来源

  • 数据集大小类别及来源数据集未明确列出。

标签

  • 数据集标签未明确列出。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作