five

mteb/arguana

收藏
Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/arguana
下载链接
链接失效反馈
官方服务:
资源简介:
ArguAna是一个用于医学信息检索的全文本学习排名数据集,包含三个配置:default、corpus和queries。它被用于评估文本嵌入模型,特别是在MTEB(Massive Text Embedding Benchmark)框架下。数据集由8674个文档和1406个查询组成,适用于文本检索任务。

ArguAna is a full-text learning to rank dataset for medical information retrieval, containing three configurations: default, corpus, and queries. It is used to evaluate text embedding models, especially within the MTEB (Massive Text Embedding Benchmark) framework. The dataset consists of 8674 documents and 1406 queries, suitable for text retrieval tasks.
提供机构:
mteb
原始信息汇总

数据集概述

语言和多语言性

  • 语言: 英语
  • 多语言性: 单语种

任务类别和任务ID

  • 任务类别: 文本检索
  • 任务ID: 文档检索

配置名称和特征

  • 配置名称: default

    • 特征:
      • 名称: query-id
        • 数据类型: string
      • 名称: corpus-id
        • 数据类型: string
      • 名称: score
        • 数据类型: float64
    • 分割:
      • 名称: test
        • 字节数: 111736
        • 样本数: 1406
  • 配置名称: corpus

    • 特征:
      • 名称: _id
        • 数据类型: string
      • 名称: title
        • 数据类型: string
      • 名称: text
        • 数据类型: string
    • 分割:
      • 名称: corpus
        • 字节数: 9388094
        • 样本数: 8674
  • 配置名称: queries

    • 特征:
      • 名称: _id
        • 数据类型: string
      • 名称: text
        • 数据类型: string
    • 分割:
      • 名称: queries
        • 字节数: 1743698
        • 样本数: 1406

配置和数据文件

  • 配置名称: default

    • 数据文件:
      • 分割: test
        • 路径: qrels/test.jsonl
  • 配置名称: corpus

    • 数据文件:
      • 分割: corpus
        • 路径: corpus.jsonl
  • 配置名称: queries

    • 数据文件:
      • 分割: queries
        • 路径: queries.jsonl
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作