pg19-and-proof-pile

Hugging Face2026-04-21 更新2026-04-22 收录

下载链接：

https://huggingface.co/datasets/ZengXiangyu/pg19-and-proof-pile

下载链接

链接失效反馈

官方服务：

资源简介：

HiCI评估数据集是为长上下文语言模型设计的预分词二进制评估数据集。该数据集包含来自PG19和proof-pile两个来源的测试集和验证集，分别使用Llama-2、Llama-3和Qwen3三种不同的分词器进行预处理。数据以内存映射的token ID数组形式存储，其中Llama-2分词文件使用uint16格式（词汇量32,000），而Llama-3和Qwen3分词文件使用uint32格式（词汇量超过65,535）。proof-pile部分包含从测试集中随机采样的128个文档，每个文档至少包含32,768个token，并使用三种分词器分别处理以便跨模型公平比较。该数据集适用于长上下文建模任务的评估，特别是需要比较不同分词器性能的研究场景。

The HiCI evaluation dataset is a pre-tokenized binary evaluation dataset designed for long-context language models (HiCI paper). It contains test and validation sets from two sources, PG19 and proof-pile, preprocessed using three different tokenizers: Llama-2, Llama-3, and Qwen3. The data is stored as memory-mapped token ID arrays, with Llama-2 token files using uint16 format (vocabulary size 32,000) and Llama-3 and Qwen3 token files using uint32 format (vocabulary size exceeding 65,535). The proof-pile portion includes 128 documents randomly sampled from the test set, each containing at least 32,768 tokens, processed with all three tokenizers for fair cross-model comparison. The dataset is suitable for evaluating long-context modeling tasks, particularly in research scenarios requiring comparison of different tokenizer performances.

创建时间：

2026-04-11

原始信息汇总

HiCI评估数据集概述

数据集基本信息

数据集名称: HiCI Evaluation Data
创建目的: 为论文《Hierarchical Construction-Integration for long-context LLMs》（HiCI）提供预分词的二进制评估数据。
主要用途: 用于长上下文语言模型的评估。
许可协议: other

数据集内容与结构

数据集包含两个主要评估集：PG19和Proof-pile，并针对不同分词器提供了预分词版本。

PG19评估集

原始数据来源: deepmind/pg19
数据格式:
- 原始文本文件：pg19_raw/test.txt 和 pg19_raw/validation.txt
- 预分词二进制文件：针对Llama-2、Llama-3和Qwen3分词器
文件详情:
- pg19_llama2/test.bin: PG19测试集，使用Llama-2分词器（uint16）
- pg19_llama2/validation.bin: PG19验证集，使用Llama-2分词器（uint16）
- pg19_llama3/test.bin: PG19测试集，使用Llama-3分词器（uint32）
- pg19_llama3/validation.bin: PG19验证集，使用Llama-3分词izer（uint32）
- pg19_qwen3/test.bin: PG19测试集，使用Qwen3分词器（uint32）
- pg19_qwen3/validation.bin: PG19验证集，使用Qwen3分词器（uint32）

Proof-pile评估集

原始数据来源: EleutherAI/proof-pile
数据描述: 包含从proof-pile测试分割中随机采样的128个文档，每个文档至少有32,768个token。
文件详情:
- proof-pile_llama2/test_sampled_data.bin: 使用Llama-2分词器（uint16），与LongLoRA发布的文件相同
- proof-pile_llama3/test_sampled_data.bin: 使用Llama-3分词器（uint32）
- proof-pile_qwen3/test_sampled_data.bin: 使用Qwen3分词器（uint32）
关键说明: proof-pile_llama3和proof-pile_qwen3中的文件包含相同的128个文档，仅使用各自的分词器重新分词，以实现公平的跨模型比较。

技术格式

文件类型: 内存映射的token ID数组（.bin文件）
数据类型:
- Llama-2分词文件：uint16（词汇表大小32,000）
- Llama-3/Qwen3分词文件：uint32（词汇表大小 > 65,535）
兼容性: 与HiCI代码库中的评估脚本兼容

使用方式

数据加载示例（Python）

python import numpy as np data = np.memmap("pg19_llama2/test.bin", dtype=np.uint16, mode="r") # Llama-2 data = np.memmap("pg19_qwen3/test.bin", dtype=np.uint32, mode="r") # Qwen3 / Llama-3

数据下载命令

下载单个文件: bash huggingface-cli download ZengXiangyu/pg19-and-proof-pile proof-pile_llama2/test_sampled_data.bin --repo-type dataset
下载完整数据集: bash huggingface-cli download ZengXiangyu/pg19-and-proof-pile --repo-type dataset --local-dir ./data

数据来源与引用

PG19原始数据集: https://huggingface.co/datasets/deepmind/pg19
Proof-pile原始数据集: https://huggingface.co/datasets/EleutherAI/proof-pile
Proof-pile LLaMA-2分词版本来源: LongLoRA（https://github.com/dvlab-research/LongLoRA）
相关论文: HiCI论文（https://arxiv.org/abs/2603.20843）

搜集汇总

数据集介绍

构建方式

在长上下文语言模型评估领域，pg19-and-proof-pile数据集通过精心整合两个权威文本资源构建而成。其核心来源于PG19数据集，该数据集收录了1919年之前出版的英文书籍，以及Proof-pile数据集，后者专注于数学证明与科学文献。构建过程中，原始文本经过预处理，并分别使用Llama-2、Llama-3和Qwen3等多种主流分词器进行预分词，生成可直接内存映射的二进制令牌ID数组，确保了数据格式的统一性与高效读取。

特点

该数据集最显著的特征在于其专为长上下文建模评估而设计。它提供了同一批文档在不同分词器下的并行版本，包括Llama-2、Llama-3和Qwen3，这为跨模型性能的公平比较奠定了坚实基础。数据集中的Proof-pile部分特别包含了128篇经过采样的长文档，每篇文档的令牌长度均超过32,768，有效模拟了模型处理超长文本序列的真实场景，从而能够精准评估模型在长距离依赖理解与信息整合方面的能力。

使用方法

使用该数据集时，研究人员可通过HuggingFace命令行工具便捷地下载单个文件或完整数据集。下载的二进制文件可直接利用NumPy库进行内存映射读取，无缝接入评估流程。这些预处理的令牌序列与HiCI论文中的评估脚本完全兼容，极大简化了长上下文语言模型的基准测试工作。用户可以根据需要选择特定分词器版本的数据，快速开展模型在书籍文本和数学证明两类长文档上的性能评测。

背景与挑战

背景概述

pg19-and-proof-pile数据集是专为评估大语言模型长上下文处理能力而构建的基准工具，其核心源于2024年发表的HiCI（Hierarchical Construction-Integration）研究框架。该数据集整合了DeepMind发布的PG19文学语料库与EleutherAI构建的Proof-pile数学证明数据集，旨在系统性地测试模型在超长文本序列下的理解、记忆与推理性能。通过提供预分词的多版本评估分割，它支持跨模型（如Llama-2、Llama-3、Qwen3）的公平比较，推动了长上下文建模领域从单纯扩展窗口长度向高效层次化集成机制的范式转变。

当前挑战

该数据集所针对的核心挑战在于解决大语言模型处理长文档时的信息衰减与连贯性维持问题，尤其在文学叙事与复杂数学证明等需要深层逻辑追踪的场景中。构建过程中的主要困难涉及多源异构数据的对齐与标准化，例如将原始文本适配至不同分词器并确保采样一致性；同时，为维持评估的严谨性，需在Proof-pile中精确抽取满足最低令牌数阈值的文档样本，并保证跨分词版本的内容等价性，这对数据工程的精度与可复现性提出了较高要求。

常用场景

经典使用场景

在长上下文语言建模领域，pg19-and-proof-pile数据集作为评估基准，其经典使用场景集中于测试大型语言模型处理超长文本序列的能力。该数据集通过预标记化的二进制格式，为模型评估提供了标准化的输入，使得研究人员能够高效地衡量模型在连贯性、信息保持和跨文档推理方面的表现。这种设计特别适用于验证模型在书籍长度文本或复杂数学证明中的长期依赖捕捉能力，为长上下文建模研究提供了关键的实验基础。

实际应用

在实际应用层面，pg19-and-proof-pile数据集为开发能够处理长篇文档的智能系统提供了重要支撑。例如，在自动摘要生成、法律文档分析、学术论文审阅以及教育领域的教材理解等场景中，模型需要具备处理数万token长文本的能力。该数据集的评估结果直接指导了模型优化方向，助力构建更强大的文档级自然语言处理工具，满足现实世界中对长文本智能处理日益增长的需求。

衍生相关工作

围绕该数据集衍生了一系列经典研究工作，其中最具代表性的是HiCI论文提出的分层构建集成方法，该方法专门针对长上下文语言模型设计。此外，LongLoRA等项目利用该数据集的采样版本进行模型效率优化实验。这些工作不仅推动了长上下文建模技术的发展，还催生了多种模型架构改进和评估协议，形成了以pg19-and-proof-pile为核心的长文本处理研究生态，持续影响着后续学术探索的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集