five

alonj/FLenQA

收藏
Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alonj/FLenQA
下载链接
链接失效反馈
官方服务:
资源简介:
FLenQA数据集是一个专门设计用于评估输入长度对大型语言模型(LLMs)在问答推理任务中表现影响的数据集。通过引入不同长度、类型和位置的填充,该数据集能够隔离输入长度的影响,并研究模型在不同输入长度下的表现一致性。数据集以JSONL格式存储,每个样本包含多个字段,如`global_sample_id`、`sample_id`、`label`、`facts`、`rule`、`statement`等,用于描述样本的各个方面。

FLenQA数据集是一个专门设计用于评估输入长度对大型语言模型(LLMs)在问答推理任务中表现影响的数据集。通过引入不同长度、类型和位置的填充,该数据集能够隔离输入长度的影响,并研究模型在不同输入长度下的表现一致性。数据集以JSONL格式存储,每个样本包含多个字段,如`global_sample_id`、`sample_id`、`label`、`facts`、`rule`、`statement`等,用于描述样本的各个方面。
提供机构:
alonj
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可: MIT
  • 任务类别: 问答
  • 标签: QA, multihop, reasoning

数据集特征

  • sample_id: 样本ID,数据类型为int64
  • label: 标签,数据类型为string
  • facts: 事实,序列类型为string
  • padding_type: 填充类型,数据类型为string
  • dispersion: 分散类型,数据类型为string
  • ctx_size: 上下文大小,数据类型为int64
  • mixin: 事实与填充的混合,数据类型为string
  • dataset: 数据集名称,数据类型为string
  • global_sample_id: 全局样本ID,数据类型为int64
  • assertion/question: 断言或问题,数据类型为string
  • rule: 规则,数据类型为string
  • statement: 陈述,序列类型为string

数据集划分

  • eval: 评估集,包含12000个样本,大小为85410519字节

数据集大小

  • 下载大小: 18218707字节
  • 数据集大小: 85410519字节

配置

  • config_name: default
    • data_files:
      • split: eval
      • path: data/eval-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作