SigMap Benchmark Suite

github2026-04-30 更新2026-05-10 收录

下载链接：

https://github.com/manojmallick/sigmap-benchmark-suite

下载链接

链接失效反馈

官方服务：

资源简介：

SigMap基准测试套件是一个包含240个仓库的AI上下文提取基准数据集，支持30多种语言，平均令牌减少率为96.2%。数据集分为已发布版本（240个仓库）和扩展版本（405个仓库），包含多种导出格式（CSV、JSON、JSONL、SQL），并具有100%的数据完整性和99.6%的成功率。

The SigMap benchmark suite is an AI context extraction benchmark dataset comprising 240 repositories, supporting over 30 languages with an average token reduction rate of 96.2%. The dataset is split into two variants: the released version (240 repositories) and the extended version (405 repositories). It supports multiple export formats including CSV, JSON, JSONL, and SQL, and features 100% data integrity along with a 99.6% success rate.

创建时间：

2026-04-30

原始信息汇总

SigMap Benchmark Suite 数据集详情

数据集版本

该数据集提供两个版本：

版本	仓库数量	状态	DOI
已发布版本	240 个仓库	✅ 已发布	https://doi.org/10.5281/zenodo.19898842
扩展版本	405 个仓库	✅ 准备发布	待分配

综合统计

仓库总数： 405 个（240 个已发布 + 165 个扩展）
编程语言： 30 种以上
基准操作总数： 2,025 次以上
源代码文件： 1,000,000 个以上
代码行数： 5 亿行以上
成功率： 99.6%
数据完整性： 100%
平均 Token 缩减率： 96.2%

基准操作详情

阶段 1A： 38 个仓库 → 190 次操作（38×5）
阶段 1B： 116 个仓库 → 390 次操作（116×5）
阶段 2： 251 个仓库 → 1,255 次操作（251×5）
总计： 405 个仓库 → 2,025 次操作

数据交付物

格式	大小	位置	状态
CSV	50 KB	~/results/exports/	✅ 就绪
JSON	343 KB	~/results/exports/	✅ 就绪
JSONL	272 KB	~/results/exports/	✅ 就绪
SQL	88 KB	~/results/exports/	✅ 就绪
总计	753 KB	GCS 上传中	🔄 进行中

数据质量

已发布版本（240 个仓库）

数据完整性： 100%（所有 28 个字段已填充）
结果成功率： 99.6%（404-405 个仓库）
文件完整性： 100%（SHA256 验证）
零数据丢失： ✅ 已验证
一致性： 仓库 1-240 在两个版本中一致

扩展版本（405 个仓库）

数据完整性： 100%（所有 28 个字段已填充）
结果成功率： 99.6%（404-405 个仓库）
文件完整性： 100%（SHA256 验证）
零数据丢失： ✅ 已验证
一致性： 仓库 1-240 与已发布版本逐字节一致

按语言的关键洞察

Python： 最一致（~96.2% ± 1.8%，45 个仓库）
JavaScript： 变异性高（~92.1% ± 4.2%，40 个仓库）
Java： 复杂模式（~94.5% ± 2.6%，20 个仓库）
Go： 接口密集型（~95.2% ± 2.1%，15 个仓库）

按仓库大小的关键洞察

最小： basicauth（5 个文件）→ 99.9% 缩减
最大： gitlab（38,667 个文件）→ 96.1% 缩减
单仓库： 45 个（占 18.8%）→ 通过特殊处理可提升 2-3%
平均： 所有 405 个仓库的 Token 缩减率为 96.2%

性能与执行

克隆速度： 约 2 个仓库/分钟（8 个并行工作器）
基准速度： 约 20 次操作/分钟（4 个并行工作器）
总执行时间： 405 个仓库在 c2-standard-8 上耗时 1 小时 20 分钟
成功率： 99.6%（405 个仓库中完成 404 个）

已知限制

阶段 2：405 个仓库中 404 个成功（扩展版本中 1 个超时）
导出：仅 4 种格式（因 pandas 限制省略 Parquet）
仓库：浅克隆（depth=1）以节省空间
语言检测：自动化（对多语言仓库不完美）

引用格式

已发布版本（240 个仓库）

APA 引用：

SigMap Benchmark Suite Contributors. (2026). SigMap benchmark: 240 repositories, 1,775 operations. Zenodo. https://doi.org/10.5281/zenodo.19898842

BibTeX 引用： bibtex @dataset{sigmap2026_published, author = {Mallick, Manoj}, title = {SigMap Benchmark Suite: 240 Open-Source Repositories}, year = {2026}, month = {April}, publisher = {Zenodo}, doi = {10.5281/zenodo.19898842}, url = {https://zenodo.org/records/19898842} }

扩展版本（405 个仓库）— DOI 待分配

APA 引用：

SigMap Benchmark Suite Contributors. (2026). SigMap Benchmark Suite: Extended Dataset with 405 Repositories. Zenodo. https://doi.org/[ASSIGNED-UPON-SUBMISSION]

搜集汇总

数据集介绍

构建方式

SigMap Benchmark Suite的构建基于对405个涵盖30余种编程语言的开源仓库的系统性采集与处理。数据采集分为已发表版本（240个仓库）与扩展版本（405个仓库），通过分阶段执行五种基准测试模式（Health、Benchmark、Analyze、Report、Analyze --slow），完成共计2025次操作。每个仓库均提取50余个元数据字段，涵盖身份、规模、令牌指标及执行效率等维度。所有代码仓库采用浅克隆方式获取，基准测试在c2-standard-8虚拟机（8 vCPU、32 GB内存、500 GB SSD）上并行执行，总耗时约1小时20分钟，最终以CSV、JSON、JSONL及SQL四种格式导出，确保数据结构的灵活性与通用性。

特点

该数据集的核心特点在于其双重出版层级设计与卓越的数据质量。已发表版本（240仓库）已获得DOI（10.5281/zenodo.19898842），扩展版本（405仓库）进一步覆盖165个新增仓库，两者在1至240号仓库上实现字节级一致，验证了结果的稳定性。数据完整性达100%，成功率99.6%，令牌压缩率均值96.2%且版本间差异小于0.01%。多格式导出（CSV、JSON、JSONL、SQL）适应不同应用场景，从学术分析到工程部署均可直接使用。此外，数据集配备了完整的可复现性脚本、硬件规格说明及方法论文档，确保研究透明性。

使用方法

研究人员可通过下载CSV格式数据在R或Python中开展统计分析，或利用JSON格式实现程序化接口调用。开发者可依据提供的仓库列表克隆代码，运行基准测试脚本以复现结果，并进一步扩展新的测试模式。学生群体则能借此深入研究多语言代码模式，或分析SigMap工具的有效性。数据集附带详尽的可复现指南，用户只需在相同硬件配置（c2-standard-8）上执行预置脚本，即可在约两小时内完成全部405个仓库的基准测试，验证结果与已发表数据的一致性。引用时请使用对应的DOI标识。

背景与挑战

背景概述

SigMap Benchmark Suite是由Manoj Mallick等人于2026年创建的大规模开源代码仓库基准测试数据集，旨在评估和优化代码上下文提取技术在大规模多语言环境中的表现。该数据集包含两个版本：已发布的240个仓库版本和扩展的405个仓库版本，覆盖30余种编程语言，执行了2025项基准操作，平均令牌缩减率高达96.2%。其核心研究问题聚焦于如何在高维代码空间中高效、准确地提取语义结构，以支持AI驱动的代码理解与生成。该数据集已经在Zenodo上获得DOI（10.5281/zenodo.19898842），为开源社区和学术界提供了标准化、可复现的评估框架，推动了代码智能领域的发展。

当前挑战

SigMap Benchmark Suite所解决的领域问题在于，现有代码评估基准多局限于单一语言或小规模项目，难以反映真实世界中多语言、大规模代码库的复杂语义结构，导致AI模型在跨语言上下文提取时性能不稳定。构建过程中的挑战包括：1）需从超过405个开源项目中克隆完整代码，但受限于存储与网络带宽，采用了浅层克隆（depth=1），可能丢失部分版本历史信息；2）语言检测自动化工具对多语言混合仓库的识别精度有限，导致元数据存在偏差；3）扩展版本中一个仓库超时失败，暴露出硬件资源（c2-standard-8）在高负载下执行效率的瓶颈；4）数据导出格式仅支持CSV、JSON、JSONL和SQL，缺乏Parquet等列式存储格式，限制了大数据集的高效分析。

常用场景

经典使用场景

SigMap Benchmark Suite 作为衡量大规模代码库中上下文压缩效率的基准平台，其经典使用场景在于系统评估 SigMap 工具对不同编程语言和项目结构的 token 缩减能力。研究者通过调用五种预定义的基准模式（Health、Benchmark、Analyze、Report、Analyze --slow），在涵盖 30 余种语言的 405 个开源仓库上执行标准化操作，获取包括身份标识、规模度量、令牌指标及执行时间在内的 50 余项元数据字段，从而在统一框架下对比不同代码库的压缩特征与性能表现。该平台尤其适用于代码理解与压缩领域的方法学验证，为评估新型算法在真实、多样化的代码环境中的鲁棒性和泛化能力提供了高可靠性的实验基础。

解决学术问题

该数据集有效解决了代码压缩与理解领域中缺乏大规模、多语言、经严格验证的基准测试平台的学术困境。长期以来，针对代码上下文的高效提取与 token 缩减研究受限于孤立的小规模实验，难以在统一的评价体系下进行公平比较。SigMap Benchmark Suite 通过提供 405 个拥有 500 余万行代码的完整仓库及其详尽执行结果，为研究者首次提供了可重复、可复现的标准化参考。其 99.6% 的操作成功率和 100% 的数据完整性确保了结论的统计可靠性，从而揭示出不同编程语言和项目规模下的压缩规律。这一贡献不仅推动了代码智能领域实验方法论的规范化，更为后续大语言模型在代码理解任务中的上下文优化奠定了坚实的量化依据。

衍生相关工作

依托 SigMap Benchmark Suite 的高质量结构化数据，学术界围绕代码上下文压缩涌现出多项具有影响力的衍生工作。研究者基于发布版中 240 个仓库的基准结果，进一步构建了面向特定语言（如 Python、JavaScript）的深度分析模型，探索了项目结构复杂度与 token 节约率之间的关联规律。部分工作利用扩展版数据集中的 405 个仓库，训练了预测代码仓库最优压缩模式的轻量级分类器，实现了基准流程的自动化参数选择。此外，数据集中包含的详尽元数据已被整合进代码表征学习的对比实验，作为衡量不同代码表示方法语义保留能力的辅助基准。这些后续研究成果不仅验证了该数据集的多元复用价值，也彰显了其在推动代码理解与压缩领域持续创新中的核心枢纽作用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集