xinrongzhang2022/InfiniteBench

Hugging Face2024-06-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/xinrongzhang2022/InfiniteBench

下载链接

链接失效反馈

资源简介：

--- configs: - config_name: default data_files: - split: passkey path: "passkey.jsonl" - split: kv_retrieval path: "kv_retrieval.jsonl" - split: number_string path: "number_string.jsonl" - split: code_run path: "code_run.jsonl" - split: code_debug path: "code_debug.jsonl" - split: math_find path: "math_find.jsonl" - split: math_calc path: "math_calc.jsonl" - split: longdialogue_qa_eng path: "longdialogue_qa_eng.jsonl" - split: longbook_qa_eng path: "longbook_qa_eng.jsonl" - split: longbook_sum_eng path: "longbook_sum_eng.jsonl" - split: longbook_choice_eng path: "longbook_choice_eng.jsonl" - split: longbook_qa_chn path: "longbook_qa_chn.jsonl" --- --- license: apache-2.0 --- --- ## Citation Please cite us if you use $\infty$Bench. ```bibtex @misc{zhang2024inftybench, title={$\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens}, author={Xinrong Zhang and Yingfa Chen and Shengding Hu and Zihang Xu and Junhao Chen and Moo Khai Hao and Xu Han and Zhen Leng Thai and Shuo Wang and Zhiyuan Liu and Maosong Sun}, year={2024}, eprint={2402.13718}, archivePrefix={arXiv}, primaryClass={cs.CL} }

This dataset includes multiple configuration files, each corresponding to different types of data files such as passkey, kv_retrieval, number_string, etc. These data files cover a variety of tasks ranging from simple key-value retrieval to complex mathematical calculations and long text question answering. The purpose of the dataset is to evaluate the performance of models in handling long contexts (beyond 100K tokens).

提供机构：

xinrongzhang2022

原始信息汇总

数据集概述

数据文件配置

配置名称: default
数据文件列表:
- split: passkey
  - 路径: passkey.jsonl
- split: kv_retrieval
  - 路径: kv_retrieval.jsonl
- split: number_string
  - 路径: number_string.jsonl
- split: code_run
  - 路径: code_run.jsonl
- split: code_debug
  - 路径: code_debug.jsonl
- split: math_find
  - 路径: math_find.jsonl
- split: math_calc
  - 路径: math_calc.jsonl
- split: longdialogue_qa_eng
  - 路径: longdialogue_qa_eng.jsonl
- split: longbook_qa_eng
  - 路径: longbook_qa_eng.jsonl
- split: longbook_sum_eng
  - 路径: longbook_sum_eng.jsonl
- split: longbook_choice_eng
  - 路径: longbook_choice_eng.jsonl
- split: longbook_qa_chn
  - 路径: longbook_qa_chn.jsonl

搜集汇总

数据集介绍

构建方式

该数据集的构建采取了模块化设计，涵盖多种任务类型，如passkey、kv_retrieval、number_string等，每种任务类型均对应不同的数据文件。这些文件包含了用于训练和评估大型语言模型处理超长文本上下文能力的合成和现实任务数据，任务涉及英语和中文两种语言，旨在要求模型理解长依赖关系，而非简单地从上下文中检索有限的段落。

使用方法

使用该数据集时，用户首先需要定义特征模式，然后利用提供的load_dataset函数加载数据集。加载过程中，用户可以根据需要指定特征模式，以确保数据集的结构与模型的输入要求相匹配。通过适当的数据处理和模型训练流程，研究者可以在InfiniteBench数据集上评估和改进其模型的性能。

背景与挑战

背景概述

在当前自然语言处理领域，大型语言模型（LLM）的长文本处理能力日益受到重视。InfiniteBench数据集，由张鑫荣等人于2024年提出，旨在填补长文本语境评估标准的空白。该数据集的核心研究问题是提升LLM对超过10万 tokens长度的文本处理和推理能力。InfiniteBench包含了英语和中文的多样领域任务，其数据平均长度超过100K tokens，旨在推动长依赖关系的理解和评估。该数据集的发布，对促进LLM的长文本处理技术的发展具有显著影响力和推动作用。

当前挑战

InfiniteBench数据集在构建和应用过程中面临的挑战主要包括：如何准确评估LLM在处理超长文本时的性能，以及如何设计出能够真正考验模型长文本理解和推理能力的任务。此外，数据集的构建也面临了合成任务与实际任务之间的平衡问题，确保数据的质量和多样性，以及如何处理大规模数据集的效率和资源消耗问题。实验结果表明，即使是针对长文本处理优化的LLM，在处理100K+ tokens的文本时仍需显著改进。

常用场景

经典使用场景

在深入探讨大型语言模型处理超长文本能力的研究领域，InfiniteBench数据集以其独特的长文本上下文设计，成为评估模型性能的重要工具。该数据集最经典的使用场景在于，研究者能够利用其提供的超过10万token的长文本上下文，对模型在长距离依赖理解、复杂推理任务上的表现进行深入分析，从而推动大型语言模型在文本理解、生成与交互等领域的应用发展。

解决学术问题

InfiniteBench数据集解决了学术界在长文本处理能力评估方面的迫切需求。在此之前，公共评测基准多集中于1万token左右的文本，这限制了对于模型处理更长文本能力的评估。InfiniteBench的出现，填补了这一空白，为研究长文本上下文中模型的性能瓶颈提供了标准化的测试平台，对于推动长文本处理技术的发展具有重大意义。

实际应用

在实用层面，InfiniteBench数据集的应用广泛。它不仅可以帮助改进文档理解、智能体构建等场景下的语言模型，还可以为信息检索、问答系统、文本摘要等任务提供性能优化的参考。通过该数据集，开发者和研究者可以针对性地优化模型，以满足实际应用中对长文本处理的高标准要求。

数据集最近研究