five

rbiswasfc/ruler

收藏
Hugging Face2024-06-27 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/rbiswasfc/ruler
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个使用RULER工具生成的合成数据集,用于评估具有可配置序列长度和任务复杂度的长上下文语言模型。目前,它包含来自RULER的四个任务:QA2(在添加干扰信息后的hotpotqa)、多跳追踪:变量追踪(VT)、聚合:常见词(CWE)和多键针在干草堆中(NIAH)。每个任务使用两个目标序列长度(4k和8k)。数据集示例通过RULER仓库中的prepare_data.py脚本生成。

这是一个使用RULER工具生成的合成数据集,用于评估具有可配置序列长度和任务复杂度的长上下文语言模型。目前,它包含来自RULER的四个任务:QA2(在添加干扰信息后的hotpotqa)、多跳追踪:变量追踪(VT)、聚合:常见词(CWE)和多键针在干草堆中(NIAH)。每个任务使用两个目标序列长度(4k和8k)。数据集示例通过RULER仓库中的prepare_data.py脚本生成。
提供机构:
rbiswasfc
原始信息汇总

数据集概述

数据集配置

cwe_4k

  • 特征:
    • index: int64
    • input: string
    • outputs: sequence of string
    • length: int64
  • 分割:
    • validation:
      • num_bytes: 5613122
      • num_examples: 500
  • 下载大小: 2671238
  • 数据集大小: 5613122
  • 数据文件路径: cwe_4k/validation-*

cwe_8k

  • 特征:
    • index: int64
    • input: string
    • outputs: sequence of string
    • length: int64
  • 分割:
    • validation:
      • num_bytes: 11309115
      • num_examples: 500
  • 下载大小: 6342870
  • 数据集大小: 11309115
  • 数据文件路径: cwe_8k/validation-*

niah_multikey_1_4k

  • 特征:
    • index: int64
    • input: string
    • outputs: sequence of string
    • length: int64
  • 分割:
    • validation:
      • num_bytes: 9040605
      • num_examples: 500
  • 下载大小: 1917452
  • 数据集大小: 9040605
  • 数据文件路径: niah_multikey_1_4k/validation-*

niah_multikey_1_8k

  • 特征:
    • index: int64
    • input: string
    • outputs: sequence of string
    • length: int64
  • 分割:
    • validation:
      • num_bytes: 17675160
      • num_examples: 500
  • 下载大小: 6123836
  • 数据集大小: 17675160
  • 数据文件路径: niah_multikey_1_8k/validation-*

qa_2_4k

  • 特征:
    • index: int64
    • input: string
    • outputs: sequence of string
    • length: int64
  • 分割:
    • validation:
      • num_bytes: 7228787
      • num_examples: 500
  • 下载大小: 4335504
  • 数据集大小: 7228787
  • 数据文件路径: qa_2_4k/validation-*

qa_2_8k

  • 特征:
    • index: int64
    • input: string
    • outputs: sequence of string
    • length: int64
  • 分割:
    • validation:
      • num_bytes: 15858212
      • num_examples: 500
  • 下载大小: 9820108
  • 数据集大小: 15858212
  • 数据文件路径: qa_2_8k/validation-*

vt_4k

  • 特征:
    • index: int64
    • input: string
    • outputs: sequence of string
    • length: int64
  • 分割:
    • validation:
      • num_bytes: 7265000
      • num_examples: 500
  • 下载大小: 450959
  • 数据集大小: 7265000
  • 数据文件路径: vt_4k/validation-*

vt_8k

  • 特征:
    • index: int64
    • input: string
    • outputs: sequence of string
    • length: int64
  • 分割:
    • validation:
      • num_bytes: 15000000
      • num_examples: 500
  • 下载大小: 860069
  • 数据集大小: 15000000
  • 数据文件路径: vt_8k/validation-*
搜集汇总
数据集介绍
main_image_url
构建方式
rbiswasfc/ruler数据集是根据RULER框架生成的合成数据集,旨在评估具有可配置序列长度和任务复杂度的长语境语言模型。数据集的构建采用了RULER库中的prepare_data.py脚本,通过设定不同的任务类型、序列长度、样本数量等参数,生成包含输入文本、输出序列、索引和长度等特征的数据实例。
特点
该数据集的特点在于其合成性质,允许研究者在可控环境下评估模型在处理长语境任务时的表现。数据集涵盖了四种任务类型:QA2、多跳跟踪:变量跟踪(VT)、聚合:常见词(CWE)和多键针在 haystack 中(NIAH),每种任务都提供了两种目标序列长度(4k和8k)。此外,数据集的验证集大小固定为500个样本,便于进行模型验证。
使用方法
使用rbiswasfc/ruler数据集时,用户首先需要根据数据集的配置名称选择相应的数据文件。数据集支持通过HuggingFace的库直接加载,用户可以指定验证集进行模型评估。具体使用时,可以通过调整数据集的配置参数,如序列长度、任务复杂度等,来适应不同的实验需求。
背景与挑战
背景概述
RULER数据集,诞生于2023年,是由Jackson Hsieh等研究人员基于对长语境语言模型的评估需求而构建的合成数据集。该数据集的核心研究问题是评估长语境语言模型在不同序列长度和任务复杂性下的表现。其影响力在于为研究界提供了一种新的评估方法,使研究者能够更准确地了解模型在处理长文本时的性能。RULER数据集涵盖了四种任务:QA2、多跳追踪中的变量跟踪(VT)、聚合中的常见词汇(CWE)和多键针-in-a-haystack(NIAH),并提供了两种目标序列长度(4k和8k)的设置。
当前挑战
该数据集在构建过程中面临的挑战主要包括:如何生成具有足够多样性和复杂性的长文本样本,以及如何确保不同任务间数据的一致性和可比性。在所解决的领域问题上,例如QA2任务,挑战在于如何处理添加了干扰信息后的复杂问题回答;在VT任务中,挑战是如何追踪和解决涉及多个步骤的问题;在CWE任务中,挑战是如何进行有效的信息聚合;在NIAH任务中,挑战是如何在大量信息中准确找到关键信息。
常用场景
经典使用场景
rbiswasfc/ruler数据集,作为一项旨在评估长文本语境下语言模型性能的基准,其经典使用场景在于为研究者提供了一个可配置序列长度和任务复杂度的综合平台。在此平台上,研究者可以针对不同任务,如QA2、多跳追踪、聚合以及多键针尖搜索等,开展模型训练与评估工作,进而深入探讨长文本语境对模型性能的影响。
实际应用
在实际应用中,rbiswasfc/ruler数据集的应用范围广泛,不仅能够服务于自然语言处理领域的研究,还能为构建能够处理复杂文本信息的智能系统提供支持。例如,在信息检索、问答系统以及文本摘要等领域,该数据集有助于提升系统的准确性和效率。
衍生相关工作
基于rbiswasfc/ruler数据集的研究成果,已经衍生出一系列相关的工作,包括对现有模型的长文本处理能力的改进、新型任务的设计与实现,以及在不同领域中的应用探索。这些工作进一步扩展了该数据集的学术价值和影响力,为长文本语境下的自然语言处理研究提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作