kevo666/packrat-benchmarks
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/kevo666/packrat-benchmarks
下载链接
链接失效反馈官方服务:
资源简介:
# PackRat v2 Benchmarks
**Version:** 2.0.0
**Date:** 2026-04-10
**Tokenizer:** tiktoken cl100k_base (GPT-4 / Claude compatible)
**Platform:** Node.js v25.6.1, Windows 11
## Summary
| Metric | Result |
|--------|--------|
| Round-trip accuracy | **100%** (144/144 tests) |
| Token savings (avg) | **2.4%** |
| Token savings (best) | **17.3%** (path/URL-heavy files) |
| Byte savings (avg) | **2.5%** |
| Search speedup | **12.03x** |
| Codebook entries | 72 (auto-learned) |
| Negative-savings entries | 0 |
## Comparison: PackRat vs MemPalace
| Metric | PackRat v2 | MemPalace (AAAK) |
|--------|-----------|-----------------|
| Accuracy | **100%** (lossless) | 84.2% (lossy) |
| Compression type | Lossless codebook | Lossy summarization |
| Token savings | 2-17% | Higher (lossy) |
| Data loss | **Zero** | Information dropped |
| Dependencies | Zero | Multiple |
| Decoder needed | No (self-documenting) | Yes |
PackRat trades peak compression for perfect fidelity. No information is ever lost.
## Real-World Results (65 Production Files)
Tested on 65 markdown memory files totaling 249KB / 70,014 tokens.
Codebook auto-learned from the same files (72 entries: 20 paths, 35 entities, 17 phrases).
| File | Bytes | Tokens | Compressed Tokens | Token Savings | Round-Trip |
|------|-------|--------|-------------------|---------------|------------|
| telegram_channels.md | 782 | 197 | 163 | **17.3%** | PASS |
| deployed_urls.md | 5,481 | 1,666 | 1,415 | **15.1%** | PASS |
| nvidia_api_endpoints.md | 2,331 | 756 | 684 | **9.5%** | PASS |
| comfyui-setup.md | 1,939 | 623 | 565 | **9.3%** | PASS |
| anymodel_promo.md | 1,703 | 471 | 433 | **8.1%** | PASS |
| mulerun-agents.md | 2,408 | 760 | 704 | **7.4%** | PASS |
| feedback_nano_pictures.md | 585 | 143 | 133 | **7.0%** | PASS |
| feedback_comfyui_mcp.md | 1,589 | 511 | 479 | **6.3%** | PASS |
| session_state_2026_03_21.md | 1,934 | 568 | 532 | **6.3%** | PASS |
| 3d_pipeline.md | 5,820 | 1,748 | 1,652 | **5.5%** | PASS |
| PLATFORMS.md | 1,644 | 639 | 604 | **5.5%** | PASS |
| opencli_rs.md | 2,056 | 590 | 564 | **4.4%** | PASS |
| PROJECTS.md | 6,508 | 2,002 | 1,921 | **4.0%** | PASS |
| grokbot_status.md | 2,143 | 621 | 597 | **3.9%** | PASS |
| nemocode.md | 7,267 | 2,031 | 1,953 | **3.8%** | PASS |
| git_hooks_installed.md | 1,576 | 420 | 405 | **3.6%** | PASS |
| youtube_comment_adapter.md | 1,751 | 459 | 443 | **3.5%** | PASS |
| MEMORY.md | 7,140 | 2,131 | 2,064 | **3.1%** | PASS |
| anymodel.md | 3,313 | 1,027 | 996 | **3.0%** | PASS |
| preston_plumbing.md | 1,163 | 302 | 293 | **3.0%** | PASS |
| feedback_morning_surprise.md | 1,946 | 421 | 409 | **2.9%** | PASS |
| local_image_gen.md | 4,822 | 1,671 | 1,625 | **2.8%** | PASS |
| LESSONS.md | 13,814 | 3,776 | 3,715 | **1.6%** | PASS |
| TASKS.md | 12,543 | 3,983 | 3,909 | **1.9%** | PASS |
| reelrecipes.md | 35,578 | 9,555 | 9,540 | **0.2%** | PASS |
| **TOTAL** | **249,111** | **70,014** | **68,317** | **2.4%** | **65/65 PASS** |
*25 of 65 files shown. All 65 files passed round-trip. Full results in benchmark/output/v2-test-results.json.*
## Token Savings by Pattern Type
Measured with tiktoken cl100k_base:
| Pattern Type | Example | Original Tokens | Code Tokens | Savings Per Hit |
|-------------|---------|-----------------|-------------|-----------------|
| Windows file path | `C:/Users/dev/projects/app/` | 8 | 3 | **5** |
| Deep file path | `C:/Users/dev/projects/reelrecipes/src/` | 12 | 3 | **9** |
| Very deep path | `C:/Users/dev/Downloads/ComfyUI_portable/` | 19 | 3 | **16** |
| GitHub URL | `https://github.com/user/repo` | 14 | 3 | **11** |
| Markdown header | `## CRITICAL REMINDERS` | 6 | 2 | **4** |
| Multi-word phrase | `via OpenRouter for free` | 5 | 2 | **3** |
| Tech name (multi-token) | `ReelRecipes` | 3 | 2 | **1** |
| Tech name (single-token) | `JavaScript` | 1 | 3 | **-2** (rejected) |
v2's token-aware scoring automatically rejects entries like "JavaScript" that cost tokens.
## Test Suite (144 tests, 0 failures)
| Category | Tests | Description |
|----------|-------|-------------|
| Edge cases | 40 | Unicode, emoji, CJK, whitespace, code blocks, markdown, literal code-like strings, special chars, fake headers, private use area chars |
| Stress tests | 14 | 200x repeated words, 100x repeated paths, 50K char files, null bytes, 1-char files, long paths/URLs |
| Real-world files | 65 | Production AI agent memory files (read-only, no modification) |
| CLAUDE.md files | 12 | Project config files across multiple repos |
| v1 backward compat | 12 | v2 engine with v1 codebook format |
| Production codebook | 1 | v2 engine with Muxie's live codebook |
## How to Reproduce
```bash
git clone https://github.com/kevdogg102396-afk/packrat
cd packrat
pip install tiktoken
PYTHON_PATH=$(which python) node benchmark/bench.mjs
PYTHON_PATH=$(which python) node benchmark/tests/v2-edge-cases.mjs
```
## Methodology
- **Token counting**: tiktoken cl100k_base via Python subprocess (batch mode)
- **Round-trip test**: `decompress(compress(original)) === original` (exact string equality)
- **Codebook**: Auto-learned from the same files being tested (no external training data)
- **No cherry-picking**: All 65 files in the memory directory were tested, results reported for every file
- **Secrets filter**: Lines containing API keys, tokens, or credentials are stripped before learning
提供机构:
kevo666
搜集汇总
数据集介绍

构建方式
在文本压缩领域,PackRat v2基准数据集的构建体现了严谨的实证研究范式。其核心方法基于对真实生产环境中65个Markdown格式的AI代理记忆文件进行系统性采集,这些文件总计包含约7万个令牌。数据集的构建并非依赖外部训练语料,而是采用自学习机制,从待测文件本身自动归纳出一个包含72个条目的无损编码本。该编码本涵盖了文件路径、实体名称和常用短语等多种语言模式,并通过令牌感知评分机制,智能地拒绝那些可能导致令牌数增加的无效条目,确保了压缩效率的纯粹提升。整个构建过程遵循严格的复现性原则,所有文件均经过完整的往返测试,以验证压缩解压后的字符串完全等同。
特点
PackRat v2基准数据集展现出若干鲜明的技术特征,使其在文本压缩评估领域独树一帜。其最核心的特征在于实现了完全无损的压缩,在全部144项测试中保持了百分之百的往返准确率,这意味着信息在压缩与解压过程中没有丝毫损耗。数据集呈现出显著的压缩效率异质性,平均令牌节省率为2.4%,而在包含大量路径或URL的文件中,最佳节省率可达17.3%,这揭示了不同文本模式对压缩算法的敏感性差异。此外,数据集具备自包含与自解释特性,其编码本直接从测试数据中学习生成,且压缩后的文本无需额外解码器即可理解,极大增强了实用性与可移植性。
使用方法
该数据集为评估文本压缩算法,特别是面向大语言模型上下文优化的无损压缩技术,提供了一个标准化的基准平台。研究人员可通过克隆项目仓库并运行指定的基准测试脚本,完整复现数据集报告中列出的各项性能指标,包括令牌节省率、字节节省率及搜索加速比。数据集内嵌的144项综合测试套件,覆盖了边缘案例、压力测试和真实世界文件,为算法的鲁棒性评估提供了多维度的检验标准。在实际应用中,开发者可借鉴其自学习编码本的构建方法,针对特定领域的文本语料(如技术文档、日志文件)定制高效的压缩方案,以优化AI系统的记忆存储与检索效率。
背景与挑战
背景概述
PackRat v2压缩基准数据集于2026年4月发布,专注于文本无损压缩领域,旨在解决大型语言模型(LLM)应用中上下文窗口受限与内存效率优化的核心问题。该数据集由独立研究者构建,通过自动学习代码本技术,对包含路径、实体和短语的多样化真实世界Markdown文件进行压缩评估。其创新之处在于实现了百分之百的往返准确性,在保持信息完整性的前提下,平均实现了2.4%的令牌节省,为AI代理记忆存储与检索提供了可验证的高效解决方案,推动了上下文压缩技术向无损化与实用化方向发展。
当前挑战
该数据集致力于应对文本无损压缩在AI记忆系统中的关键挑战,即在保持信息完整性的同时最大化令牌节省率。构建过程中的主要困难包括:如何设计自适应算法以从异构文本数据中自动识别并学习高频率模式,如文件路径与URL,同时避免对单令牌词汇产生负压缩效应;确保压缩方法在包含特殊字符、代码块及多语言文本的边缘案例中保持鲁棒性;以及建立严格的往返测试框架,以验证压缩解压过程在多样化的真实生产文件中的零信息损失。
常用场景
经典使用场景
在文本压缩与人工智能记忆管理领域,PackRat v2基准数据集为无损压缩算法的评估提供了标准化测试环境。该数据集通过自动学习代码本,对包含路径、实体和短语的多样化Markdown文件进行压缩,典型应用场景包括评估大型语言模型上下文窗口的优化效果,以及验证无损压缩技术在保持信息完整性的同时实现令牌节省的能力。其测试覆盖边缘案例、压力测试和真实生产文件,确保了评估的全面性与可靠性。
实际应用
在实际应用中,PackRat v2数据集直接支持AI代理记忆系统的优化,例如在Obsidian等知识管理工具中压缩冗长的文件路径、API端点或URL链接,从而降低存储与传输开销。其无损特性确保了关键配置信息、项目文档和会话状态的完整性,适用于需要高可靠性的生产环境,如自动化工作流、代码库文档管理以及长期对话系统的上下文维护,显著提升了系统的搜索速度与资源利用率。
衍生相关工作
基于该数据集衍生的经典工作主要集中在智能压缩算法的比较与改进上,例如与MemPalace等有损摘要方法的对比研究,突出了无损压缩在信息保留方面的优势。此外,它激发了针对特定模式(如路径、URL)的令牌优化技术探索,以及代码本自动学习机制在自适应压缩系统中的进一步应用,为后续开发更高效的上下文压缩工具提供了关键基准与灵感来源。
以上内容由遇见数据集搜集并总结生成



