PenguinScrolls

github2024-11-27 更新2024-11-28 收录

下载链接：

https://github.com/Penguin-Scrolls/PenguinScrolls

下载链接

链接失效反馈

官方服务：

资源简介：

PenguinScrolls是一个综合性的基准数据集，旨在评估和增强大型语言模型（LLMs）的长文本处理能力。该数据集包含四个顶级任务类别：信息提取、信息定位、定性分析和数值推理，总计1316个单轮数据实例。

PenguinScrolls is a comprehensive benchmark dataset designed to evaluate and enhance the long-text processing capabilities of Large Language Models (LLMs). This dataset encompasses four top-tier task categories: Information Extraction, Information Localization, Qualitative Analysis, and Numerical Reasoning, with a total of 1,316 single-turn data instances.

创建时间：

2024-11-21

原始信息汇总

PenguinScrolls: A User-Aligned Fine-Grained Benchmark for Long-Context Language Model Evaluation

概述

PenguinScrolls（企鹅卷轴）是一个综合性的基准，旨在评估和增强大型语言模型（LLMs）的长文本处理能力。该数据集旨在填补当前长上下文语言模型评估基准与实际用户需求之间的差距，通过深入研究依赖长文本处理的用户群体的需求，构建了一个面向实际用户需求的多层次任务分类框架。

关键特点

细粒度任务类型：包含多层次、难度不同的任务，构建了一个基于长上下文处理能力的综合任务分类系统。
多轮对话数据：包含模拟人类提问的多轮对话数据，创建真实的长上下文多轮对话场景。
文档多样性：包含多种自然长文本，如书籍、财务报告、法律文件和学术论文，上下文长度可达128K tokens。

数据集组成

任务分类：
- 信息提取（420项）
- 信息定位（278项）
- 定性分析（305项）
- 数值推理（313项）
- 总计1,316个单轮数据实例。

排行榜

总体结果

模型名称	微平均	信息提取(420项)	信息定位(278项)	定性分析(305项)	数值推理(313项)
GPT-4o	82.72	91.19	77.34	86.43	72.52
Llama-3.1-70B	66.45	79.05	66.19	69.00	47.28
Qwen2.5-72B	81.83	90.95	79.86	84.89	68.37
DeepSeek-V2.5-236B	73.32	77.86	73.38	77.67	62.94
Hunyuan-Large	82.56	91.43	86.33	84.44	65.50

不同长度集的结果

模型名称	0K-8K	8K-32K	32K-64K	64K-128K
GPT-4o	92.49	80.73	79.53	73.62
Llama-3.1-70B	82.51	67.26	54.01	49.54
Qwen2.5-72B	92.58	80.62	75.39	72.68
DeepSeek-V2.5-236B	90.11	75.63	56.70	56.07
Hunyuan-Large	90.87	81.60	80.52	72.36

数据集位置

数据集位于Hugging Face数据集中心：https://huggingface.co/datasets/Penguin-Scrolls/PenguinScrolls

快速开始

步骤0

安装依赖：pip install -r requirements.txt，并将penguinscrolls/目录添加到PYTHONPATH。

步骤1：生成响应

编写配置文件进行推理，支持三种框架：huggingface transformers、VLLM和openai。

Huggingface Transformers

json { "model": { "model_name_or_path": "MODEL_NAME_OR_PATH", "framework": "hf" }, "output_file": "output/hf.json", "batch_size": 1 }

VLLM

json { "model": { "model_name_or_path": "MODEL_NAME_OR_PATH", "framework": "vllm" }, "output_file": "output/vllm.json", "batch_size": 2 }

OpenAI API endpoint

json { "model": { "model_name_or_path": "model", "framework": "openai", "base_url": "http://127.0.0.1:8000/v1", "api_key": "token-abc" }, "output_file": "output/openai.json", "batch_size": 1 }

运行生成命令：python3 -m penguinscrolls.generate config.json。

步骤2：使用GPT-4o API进行评估

确保拥有有效的OpenAI API密钥，设置环境变量OPENAI_API_KEY后运行评估脚本。

bash export OPENAI_API_KEY="your_openai_api_key" python3 -m penguinscrolls.evaluate INPUT_FILE eval_result_dir/OUTPUT_FILE --concurrency 1

步骤3：收集和比较结果

将所有评估结果的json文件放入eval_result_dir/目录，命名为model_1.json、model_2.json等，然后运行notebook查看指标。

添加新任务

创建新的JSON文件，确保task_type字段反映新任务类别。

添加新模型

在models.py中实现模型接口，然后使用evaluate.py脚本评估新模型。

数据集相关分析

提供用于分析数据集特征和不同任务之间相关性的脚本和工具，位于analysis目录。

注意事项

该开源数据集仅用于评估和研究目的，不得用于其他用途。数据集中可能包含第三方内容，包括第三方通知和版权信息，使用时需遵守相关条款。

搜集汇总

数据集介绍

构建方式

PenguinScrolls数据集的构建基于对依赖长文本处理的用户群体需求的深入研究。通过建立一个面向真实用户需求的多层次任务分类框架，该数据集涵盖了广泛的文档长度、类型和交互模式，包括单轮和多轮对话。具体而言，数据集包括信息提取、信息定位、定性分析和数值推理四大类任务，共计1,316个单轮数据实例，旨在全面评估和提升大型语言模型在长文本处理方面的能力。

特点

PenguinScrolls数据集的主要特点包括：细粒度的任务类型，构建了一个基于长文本处理能力的多层次任务分类系统；多轮对话数据，通过模拟人类提问，创建真实的长文本多轮对话场景；文档多样性，涵盖了从书籍、财务报告到法律文件和学术论文等多种自然长文本，上下文长度可达128K个token。

使用方法

使用PenguinScrolls数据集进行模型评估和研究，首先需安装相关依赖并设置环境变量。用户可以通过编写配置文件，选择支持的框架（如Huggingface Transformers、VLLM和OpenAI）进行推理生成。生成的结果可以进一步通过GPT-4o API进行评估，并通过提供的Notebook脚本收集和比较评估结果。此外，用户还可以根据需要添加新任务或模型，并利用提供的分析工具进行数据集特性和任务相关性的分析。

背景与挑战

背景概述

PenguinScrolls数据集是由一支专注于长文本处理能力评估的研究团队创建的，旨在填补现有基准测试与实际用户需求之间的鸿沟。该数据集的构建基于对依赖长文本处理的用户群体需求的深入研究，涵盖了从信息提取到数值推理的多层次任务分类框架。PenguinScrolls不仅包含多样化的文档类型和长度，还模拟了真实的多轮对话场景，为大型语言模型（LLMs）的长文本处理能力提供了全面的评估平台。

当前挑战

PenguinScrolls数据集面临的挑战主要集中在两个方面。首先，构建过程中需要确保任务类型的多样性和难度层次，以真实反映用户需求，这要求对用户群体的深入理解和细致的任务设计。其次，长文本处理本身就是一个技术难题，如何在保持文本完整性的同时，高效地进行信息提取和分析，是该数据集需要解决的核心问题。此外，数据集的多样性和复杂性也增加了模型评估的难度，需要开发新的评估方法和工具来准确衡量模型的性能。

常用场景

经典使用场景

PenguinScrolls数据集的经典使用场景主要集中在对长文本处理能力的评估和增强上。该数据集通过涵盖信息提取、信息定位、定性分析和数值推理四大任务类别，为大型语言模型（LLMs）提供了一个全面的基准测试平台。这些任务不仅涉及单一回合的交互，还包括多回合对话，模拟真实世界中的长文本处理需求，从而确保模型在实际应用中的表现与用户期望高度一致。

解决学术问题

PenguinScrolls数据集解决了当前长文本处理模型评估中存在的合成任务与实际用户需求脱节的问题。通过深入研究依赖长文本处理的用户群体的需求，该数据集构建了一个多层次的任务分类框架，确保评估结果与用户感知模型性能之间具有强相关性。这不仅提升了模型评估的准确性，也为长文本处理领域的研究提供了新的方向和方法。

衍生相关工作

PenguinScrolls数据集的发布催生了多项相关研究工作。例如，有研究者利用该数据集开发了新的长文本处理算法，显著提升了模型在信息提取和数值推理任务中的表现。此外，该数据集还激发了对多回合对话生成和长文本摘要技术的深入研究，推动了自然语言处理领域在长文本处理方面的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集