five

ruler-utils

收藏
Hugging Face2026-05-19 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/ellamind/ruler-utils
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是用于自定义RULER任务的支持资产集合,包含五个独立配置的数据文件。essays配置提供了一个串联的文章语料库,作为NIAH(Needle in a Haystack)任务的“essay”干草堆,替代了上游的`baber/paul_graham_essays`依赖。squad_docs和squad_qas配置分别包含了为`ruler_qa_squad`任务预处理的SQuAD-v2数据集上下文和问题。hotpot_docs和hotpot_qas配置则包含了为`ruler_qa_hotpot`任务预处理的HotpotQA数据集干扰上下文和问题。所有数据均以Parquet格式存储,并标记为训练分割,旨在支持问答(QA)和信息检索相关任务的评估与开发。

This dataset is a collection of supporting assets for custom RULER tasks, containing five independent configuration data files. The essays configuration provides a concatenated essay corpus serving as the essay haystack for the NIAH (Needle in a Haystack) task, replacing the upstream dependency on `baber/paul_graham_essays`. The squad_docs and squad_qas configurations include preprocessed SQuAD-v2 dataset contexts and questions for the `ruler_qa_squad` task, respectively. The hotpot_docs and hotpot_qas configurations contain preprocessed HotpotQA dataset distractor contexts and questions for the `ruler_qa_hotpot` task. All data is stored in Parquet format and labeled as training splits, aimed at supporting the evaluation and development of question answering (QA) and information retrieval-related tasks.
提供机构:
ellamind
创建时间:
2026-05-18
搜集汇总
数据集介绍
main_image_url
构建方式
ruler-utils数据集专为定制化RULER任务设计,整合了多个经过预处理的子集。essays子集通过拼接语篇语料库构建,替代了原先依赖的baber/paul_graham_essays,形成NIAH任务中的“论文”型搜索空间。squad_docs与squad_qas子集源自SQuAD-v2数据集,分别包含上下文文档与问题,经预处理后适配ruler_qa_squad任务。hotpot_docs与hotpot_qas子集则基于HotpotQA干扰项上下文及问题构建,服务于ruler_qa_hotpot任务。各子集以parquet格式存储,支持高效加载。
特点
该数据集具备多任务适配的结构化特性,其essays子集作为长文本搜索源,有效支持Needle-in-a-Haystack(NIAH)评估范式,便于评测模型在冗长背景下的信息检索能力。squad与hotpot系列子集则分别面向抽取式问答与多跳推理场景,提供现成的上下文-问题配对数据。预处理流程简化了任务定制环节,降低了用户处理原始数据的复杂度,同时保持了数据原始语义的完整性。
使用方法
用户可通过HuggingFace Datasets库加载ruler-utils,指定config_name参数选择子集,例如使用essays、squad_docs、squad_qas、hotpot_docs或hotpot_qas。加载后,可将数据直接输入至对应的RULER任务流程中,如ruler_qa_squad或ruler_qa_hotpot,无需额外清洗。每个子集默认仅包含训练集,适用于模型在特定场景下的能力评估与基准测试。数据格式为parquet,调用时需确保环境支持相应解码库。
背景与挑战
背景概述
在自然语言处理领域,长文本理解与推理能力始终是评估大语言模型性能的关键维度,RULER(Reasoning and Understanding over Long-context Evaluation and Retrieval)任务应运而生,为模型在超长上下文场景下的表现提供标准化评估基准。ruler-utils数据集于近期构建,旨在为自定义RULER任务提供配套的标注与预处理资产,其维护工作主要由开源社区贡献者承担,核心研究问题聚焦于如何利用高质量、可复用的语料支撑模型在“大海捞针”(NIAH)式检索及复杂问答任务中的长程依赖建模能力。该数据集整合了保罗·格雷厄姆的随笔集、SQuAD-v2及HotpotQA的上下文与问题,通过消除上游依赖并优化数据格式,显著降低了研究者复现与扩展长文本评测实验的门槛,对推动长上下文语言模型的可信评估与迭代具有重要实践意义。
当前挑战
ruler-utils所应对的核心挑战包括:其一,长上下文评估领域中,现有标准评测体系常因数据源分散、预处理繁琐而难以快捷复现,该数据集通过提供集成的、去依赖的语料格式(如将NIAH任务所需的随笔稿与SQuAD/HotpotQA的问答对统一打包),解决了实验碎片化与重复劳动的问题;其二,在构建过程中,需确保跨数据源(如essays与squad_docs)在文本分割、问题-上下文对齐等元数据结构上的兼容性,以避免因格式不一致导致的评测偏差,同时需维持原始数据集(如SQuAD-v2)的语义完整性,避免过度截断或噪声引入,这对数据清洗与校验流程提出了高精度的要求。
常用场景
经典使用场景
ruler-utils数据集专为长文本理解与检索任务而设计,其核心场景涵盖基于大量文本的‘大海捞针’式信息提取(NIAH任务)。通过提供拼接后的论文语料库(essays)作为文档背景,研究者可评估模型在冗长上下文中精准定位并回答问题的能力。此外,该数据集还包含经过预处理的SQuAD-v2和HotpotQA的文档与问答对,分别支持单文档和多文档场景下的复杂推理任务,为长文本模型性能的标准化评测提供了关键资源。
实际应用
在实际应用中,ruler-utils可作为智能文档问答系统的训练与测试基准,助力行业部署处理法律卷宗、学术论文、技术手册等长文档的AI助手。例如,金融领域可基于其essays语料验证模型从年度报告中提取关键数据的能力;医疗领域可借助squad_docs模拟从病历中定位症状描述的流程。该数据集还支持引擎研发,通过hotpot_qas的多文档场景优化搜索引擎的跨源信息汇总能力。
衍生相关工作
该数据集衍生的经典工作包括RULER评测框架,该框架通过定制化任务(如NIAH、多文档QA)系统评估长文本模型的极限长度与检索精度。此外,基于squad_docs和hotpot_docs的预处理特性,后续研究发展出长上下文Transformer的架构改进(如分段注意力机制),以及针对多跳推理的检索增强生成方法。这些工作共同推动了LLM在长序列任务上的评测标准化和模型迭代。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作