five

nthakur/miracl-raft-eval

收藏
Hugging Face2024-06-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nthakur/miracl-raft-eval
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言配置(如阿拉伯语、孟加拉语、德语、英语),每个配置下包含多个特征,如查询ID、提示文本、正负样本ID、模型输出等。数据集旨在用于语言检测、模型评估和其他相关任务。每个特征都有明确的类型定义,如字符串、序列、列表等。此外,数据集还提供了不同语言配置下的开发集大小和下载大小。

该数据集包含多种语言配置(如阿拉伯语、孟加拉语、德语、英语),每个配置下包含多个特征,如查询ID、提示文本、正负样本ID、模型输出等。数据集旨在用于语言检测、模型评估和其他相关任务。每个特征都有明确的类型定义,如字符串、序列、列表等。此外,数据集还提供了不同语言配置下的开发集大小和下载大小。
提供机构:
nthakur
原始信息汇总

数据集概述

配置名称:ar

  • 特征:
    • query_id: 数据类型为string
    • prompt: 数据类型为string
    • positive_ids: 数据类型为sequence,子类型为string
    • negative_ids: 数据类型为sequence,子类型为string
    • outputs: 数据类型为list,包含以下子特征:
      • model: 数据类型为string
      • output: 数据类型为string
    • language_detection: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64
    • en_detection: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64
    • other_detection: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64
    • citation_MAP@6: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64
    • citation_Recall@6: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64
    • xlni_context_entailment: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64
    • xlni_context_neutral: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64
    • xlni_context_contradiction: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64
    • answer_bleu: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64
    • answer_rougeL: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64
    • gpt-4-azure-judge: 数据类型为struct,包含多个子特征,每个子特征的数据类型为int64
  • 分割:
    • dev.small: 大小为1339278字节,包含100个示例。
  • 下载大小: 630628字节。
  • 数据集大小: 1339278字节。

配置名称:bn

  • 特征:
    • 与配置ar相同。
  • 分割:
    • dev.small: 大小为1734420字节,包含100个示例。
  • 下载大小: 648804字节。
  • 数据集大小: 1734420字节。

配置名称:de

  • 特征:
    • 与配置ar相同。
  • 分割:
    • dev.small: 大小为971211字节,包含100个示例。
  • 下载大小: 512559字节。
  • 数据集大小: 971211字节。

配置名称:en

  • 特征:
    • 与配置ar相同。
  • 分割:
    • dev.small: 大小未提供,包含100个示例。
  • 下载大小: 未提供。
  • 数据集大小: 未提供。

以上概述提供了各个配置下的数据集特征、分割信息以及大小详情。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作