nthakur/miracl-raft-eval
收藏Hugging Face2024-06-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nthakur/miracl-raft-eval
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言配置(如阿拉伯语、孟加拉语、德语、英语),每个配置下包含多个特征,如查询ID、提示文本、正负样本ID、模型输出等。数据集旨在用于语言检测、模型评估和其他相关任务。每个特征都有明确的类型定义,如字符串、序列、列表等。此外,数据集还提供了不同语言配置下的开发集大小和下载大小。
该数据集包含多种语言配置(如阿拉伯语、孟加拉语、德语、英语),每个配置下包含多个特征,如查询ID、提示文本、正负样本ID、模型输出等。数据集旨在用于语言检测、模型评估和其他相关任务。每个特征都有明确的类型定义,如字符串、序列、列表等。此外,数据集还提供了不同语言配置下的开发集大小和下载大小。
提供机构:
nthakur
原始信息汇总
数据集概述
配置名称:ar
- 特征:
query_id: 数据类型为string。prompt: 数据类型为string。positive_ids: 数据类型为sequence,子类型为string。negative_ids: 数据类型为sequence,子类型为string。outputs: 数据类型为list,包含以下子特征:model: 数据类型为string。output: 数据类型为string。
language_detection: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64。en_detection: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64。other_detection: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64。citation_MAP@6: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64。citation_Recall@6: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64。xlni_context_entailment: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64。xlni_context_neutral: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64。xlni_context_contradiction: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64。answer_bleu: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64。answer_rougeL: 数据类型为struct,包含多个子特征,每个子特征的数据类型为float64。gpt-4-azure-judge: 数据类型为struct,包含多个子特征,每个子特征的数据类型为int64。
- 分割:
dev.small: 大小为1339278字节,包含100个示例。
- 下载大小: 630628字节。
- 数据集大小: 1339278字节。
配置名称:bn
- 特征:
- 与配置
ar相同。
- 与配置
- 分割:
dev.small: 大小为1734420字节,包含100个示例。
- 下载大小: 648804字节。
- 数据集大小: 1734420字节。
配置名称:de
- 特征:
- 与配置
ar相同。
- 与配置
- 分割:
dev.small: 大小为971211字节,包含100个示例。
- 下载大小: 512559字节。
- 数据集大小: 971211字节。
配置名称:en
- 特征:
- 与配置
ar相同。
- 与配置
- 分割:
dev.small: 大小未提供,包含100个示例。
- 下载大小: 未提供。
- 数据集大小: 未提供。
以上概述提供了各个配置下的数据集特征、分割信息以及大小详情。



