five

Notepad++ Release Hashes

收藏
github2026-02-02 更新2026-02-05 收录
下载链接:
https://github.com/Neo23x0/notepad-plus-plus-hashes
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含Notepad++在GitHub上所有发布版本的加密哈希值的全面集合。数据集涵盖了从2016年至今的Notepad++安装包和便携包的哈希值,数据来源于官方的GitHub发布。

This is a comprehensive collection of cryptographic hashes for all released versions of Notepad++ hosted on GitHub. The dataset covers the hashes of both Notepad++ installers and portable packages from 2016 to the present, with all data sourced from official GitHub releases.
创建时间:
2026-02-02
原始信息汇总

Notepad++ 发布版本哈希数据集概述

数据集基本信息

  • 数据集名称:Notepad++ Release Hashes
  • 数据来源:官方 notepad-plus-plus/notepad-plus-plus GitHub 发布页面
  • 数据内容:Notepad++ 所有 GitHub 发布版本的安装包和便携包的加密哈希值集合
  • 数据格式:机器可读的哈希数据集
  • 生成日期:2026-02-02

统计摘要

  • 处理的总发布版本数:134
  • 包含哈希数据的发布版本数:124 (92.5%)
  • 无哈希数据的发布版本数:10(主要为早期未发布校验和的版本)
  • 总哈希条目数:1,449
  • 唯一哈希值数量:1,373
  • 数据时间范围:2016-01-13 (v6.7.9) 至 2026-01-26 (v8.9.1)

哈希算法分布

算法 数量 描述
SHA-256 933 现代版本(v7.5+)使用的主要算法,来自 .checksums.sha256 文件
SHA-1 332 旧版本(v6.x - v7.4)使用,来自发布说明
MD5 184 早期版本使用的遗留算法,来自发布说明

数据来源细分

来源 数量 描述
checksum_asset 893 从官方的 .checksums.sha256 文件下载
release_body 556 从发布说明/描述中解析

数据文件

主要数据文件

文件 格式 描述
notepadpp_release_hashes.csv CSV 包含元数据的所有哈希表格数据
notepadpp_release_hashes.json JSON 包含结构化元数据的所有哈希数据
summary.txt 文本 人类可读的摘要和统计信息
run_log.txt 文本 每个发布版本的详细处理日志

CSV 文件结构

CSV 文件包含以下列:

  • version_tag:发布版本号(例如 v8.9.1
  • release_title:人类可读的发布标题
  • release_date:发布日期的 ISO 8601 时间戳
  • prerelease:布尔值,指示是否为预发布版本
  • release_url:GitHub 发布页面的直接链接
  • hash_algorithm:使用的算法(sha256sha1md5
  • hash_value:实际的哈希值(小写十六进制)
  • inferred_asset_name:哈希对应的资产文件名
  • source_location:哈希的发现位置(checksum_assetrelease_body
  • checksum_asset_name:校验和文件名(如果适用)
  • checksum_asset_url:校验和文件的直接下载 URL(如果适用)

JSON 结构示例

json { "metadata": { "generated_at": "2026-02-02T11:47:37Z", "repository": "notepad-plus-plus/notepad-plus-plus", "total_hashes": 1449 }, "hashes": [ { "version_tag": "v8.9.1", "release_title": "Notepad++ release 8.9.1", "release_date": "2026-01-26T14:52:34Z", "prerelease": false, "release_url": "https://github.com/notepad-plus-plus/notepad-plus-plus/releases/tag/v8.9.1", "hash_algorithm": "sha256", "hash_value": "85ea19609edb04ba320380fe81cde1e236a495633ba72c74734022d96efc8e1c", "inferred_asset_name": "npp.8.9.1.installer.arm64.exe", "source_location": "checksum_asset", "checksum_asset_name": "npp.8.9.1.checksums.sha256", "checksum_asset_url": "https://github.com/notepad-plus-plus/notepad-plus-plus/releases/download/v8.9.1/npp.8.9.1.checksums.sha256" } ] }

数据收集方法

处理流程

  1. API 枚举:使用 GitHub API 枚举所有 134 个发布版本
  2. 资产发现:检查每个发布版本是否包含匹配以下模式的校验和文件:
    • *.checksums.sha256
    • *.sha256
    • *checksum*sha256*
  3. 校验和解析:下载并解析 SHA-256 校验和文件
  4. 回退提取:对于没有校验和文件的发布版本,从发布正文/描述中解析:
    • SHA-256 哈希(64 个十六进制字符)
    • SHA-1 哈希(40 个十六进制字符)
    • MD5 哈希(32 个十六进制字符)
  5. 去重:重复的哈希条目被跟踪但保留在数据集中

支持的哈希格式

解析器处理多种校验和文件格式:

  • <hash> <filename>(标准 *sum 输出)
  • <hash> *<filename>(二进制模式 *sum)
  • <algorithm>(<filename>)= <hash>(OpenSSL 风格)
  • <filename>: <hash><filename> <hash>(内联风格)

数据质量说明

重复哈希

数据集中有 76 个哈希值出现多次。这通常发生在以下情况:

  • 同一文件在校验和文件和发布说明中都被引用
  • 构建工件在次要版本更新中产生相同的二进制文件
  • 解析器从多个来源提取了相同的哈希

所有重复项均被保留以维护数据谱系。

缺失数据

10 个发布版本没有哈希数据可用:

  • 非常旧的发布版本(v6.x 时代),当时未发布校验和
  • 一些早期的 v8.x 发布版本,暂时省略了校验和文件

具体无哈希数据的发布版本请参见 run_log.txt

哈希算法演进

时代 主要算法 来源
v6.x - v7.4 SHA-1 / MD5 发布说明(手动)
v7.5+ SHA-256 *.checksums.sha256 文件

使用许可

哈希数据本身是从公开可用的 Notepad++ 发布版本中提取的事实信息。收集脚本和本文档根据 MIT 许可证提供。

搜集汇总
数据集介绍
main_image_url
构建方式
在软件安全与完整性验证领域,Notepad++ Release Hashes 数据集通过系统化方法构建而成。该数据集全面采集了自2016年至2026年间Notepad++所有官方GitHub发布版本的密码学哈希值。构建过程首先利用GitHub API枚举了全部134个发布版本,随后针对每个版本自动检测并下载符合特定命名模式的校验和文件,例如以.checksums.sha256为后缀的文件。对于未提供独立校验和文件的早期版本,系统转而从发布说明文本中解析出SHA-256、SHA-1及MD5等格式的哈希值。整个收集脚本在设计上充分考虑了API速率限制,采用了指数退避策略,确保了数据采集的稳定与合规性,最终将所得哈希信息以结构化的CSV与JSON格式进行保存。
特点
该数据集的核心特点在于其时间跨度广、算法覆盖全面且来源清晰可溯。它涵盖了从2016年v6.7.9版本到2026年v8.9.1版本共124个发布版本的哈希数据,总计包含1449条哈希条目,其中SHA-256算法占据主导,体现了现代软件发布的安全标准演进。数据集不仅记录了哈希值本身,还通过元数据详细标注了对应的版本标签、发布日期、文件资产名以及哈希值的具体来源——是来自官方的校验和文件还是发布正文。这种精细的溯源能力为软件供应链安全分析提供了坚实基础,同时数据中保留的重复条目也完整反映了实际发布过程中的数据沿袭。
使用方法
该数据集主要服务于软件完整性验证与安全研究场景。用户可通过命令行工具直接利用数据集中的哈希值对下载的Notepad++安装包进行校验,例如使用sha256sum命令比对文件指纹,以确保二进制文件未被篡改。对于批量分析需求,研究人员可利用提供的CSV或JSON文件进行编程化查询,例如筛选特定版本的所有哈希、追踪不同哈希算法的使用变迁,或识别跨版本的重复构建产物。数据集附带的Python示例代码展示了如何加载和查询数据,便于集成到自动化安全审计或软件供应链分析流水线中,为开源软件的安全生态研究提供可靠的数据支撑。
背景与挑战
背景概述
在软件安全与完整性验证领域,哈希值作为数字指纹,对于确保软件分发的可信性至关重要。Notepad++ Release Hashes数据集由开源社区于2026年创建,系统性地收集了Notepad++编辑器自2016年至2026年间所有官方发布版本的加密哈希值。该数据集涵盖了134个发行版中的124个,总计包含1,449条哈希记录,并详细标注了SHA-256、SHA-1和MD5等多种算法及其来源。其核心研究问题在于构建一个机器可读的、全面的哈希档案,以支持软件供应链安全分析、版本验证及恶意软件检测等应用,为开源软件生态的透明性与安全性提供了重要的数据基础。
当前挑战
该数据集旨在解决软件完整性验证中的核心挑战,即如何在多版本、多算法的复杂发布历史中,自动化地收集并标准化哈希数据。构建过程中的主要挑战包括:首先,历史发布中哈希数据的缺失与不一致性,例如早期版本缺乏校验和文件,导致10个发行版无法获取哈希值;其次,哈希算法随版本演进,从早期的MD5、SHA-1过渡到SHA-256,需兼容多种格式的解析;此外,数据来源分散,需从校验和文件与发布说明中提取,并处理重复条目以保持数据谱系完整;最后,在通过GitHub API收集时,需妥善处理速率限制与网络异常,确保数据采集的可靠性与完整性。
常用场景
经典使用场景
在软件安全与完整性验证领域,Notepad++ Release Hashes数据集为研究人员提供了系统化的密码学哈希值集合。该数据集最经典的使用场景在于软件供应链安全分析,研究人员通过比对不同版本安装包的哈希值,能够追踪二进制文件的演变轨迹,识别潜在的恶意代码注入或非授权修改行为。这种基于哈希值的完整性验证机制,为开源软件的发布过程建立了可追溯的信任锚点。
衍生相关工作
基于该数据集衍生的经典研究工作主要集中在三个方向。软件指纹识别领域的研究者利用哈希值序列构建了版本相似性分析模型,能够检测代码重构过程中的功能等价关系。在软件供应链安全方向,学者们开发了基于哈希图谱的依赖关系追溯系统,能够可视化展示第三方组件的影响传播路径。更有创新性的工作是将哈希数据集与机器学习相结合,训练出能够预测软件漏洞存在概率的智能检测模型,这些研究共同推动了软件安全分析方法的范式演进。
数据集最近研究
最新研究方向
在软件供应链安全领域,Notepad++ Release Hashes数据集为研究开源软件版本完整性与发布流程安全提供了关键支撑。该数据集系统收录了Notepad++自2016年以来所有发布版本的加密哈希值,涵盖SHA-256、SHA-1和MD5等多种算法,揭示了软件发布过程中哈希验证机制的演进轨迹。当前研究聚焦于利用该数据集构建自动化软件溯源框架,通过分析哈希算法的历时性变迁与发布源头的异构性,探索针对供应链攻击的早期检测模型。随着开源软件安全事件频发,此类结构化哈希数据集为研究二进制文件完整性验证、跨版本一致性审计及恶意代码注入识别提供了实证基础,推动了软件发布透明化与可信验证技术的前沿发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作