Notepad++ Release Hashes
收藏Notepad++ 发布版本哈希数据集概述
数据集基本信息
- 数据集名称:Notepad++ Release Hashes
- 数据来源:官方 notepad-plus-plus/notepad-plus-plus GitHub 发布页面
- 数据内容:Notepad++ 所有 GitHub 发布版本的安装包和便携包的加密哈希值集合
- 数据格式:机器可读的哈希数据集
- 生成日期:2026-02-02
统计摘要
- 处理的总发布版本数:134
- 包含哈希数据的发布版本数:124 (92.5%)
- 无哈希数据的发布版本数:10(主要为早期未发布校验和的版本)
- 总哈希条目数:1,449
- 唯一哈希值数量:1,373
- 数据时间范围:2016-01-13 (v6.7.9) 至 2026-01-26 (v8.9.1)
哈希算法分布
| 算法 | 数量 | 描述 |
|---|---|---|
| SHA-256 | 933 | 现代版本(v7.5+)使用的主要算法,来自 .checksums.sha256 文件 |
| SHA-1 | 332 | 旧版本(v6.x - v7.4)使用,来自发布说明 |
| MD5 | 184 | 早期版本使用的遗留算法,来自发布说明 |
数据来源细分
| 来源 | 数量 | 描述 |
|---|---|---|
| checksum_asset | 893 | 从官方的 .checksums.sha256 文件下载 |
| release_body | 556 | 从发布说明/描述中解析 |
数据文件
主要数据文件
| 文件 | 格式 | 描述 |
|---|---|---|
notepadpp_release_hashes.csv |
CSV | 包含元数据的所有哈希表格数据 |
notepadpp_release_hashes.json |
JSON | 包含结构化元数据的所有哈希数据 |
summary.txt |
文本 | 人类可读的摘要和统计信息 |
run_log.txt |
文本 | 每个发布版本的详细处理日志 |
CSV 文件结构
CSV 文件包含以下列:
version_tag:发布版本号(例如v8.9.1)release_title:人类可读的发布标题release_date:发布日期的 ISO 8601 时间戳prerelease:布尔值,指示是否为预发布版本release_url:GitHub 发布页面的直接链接hash_algorithm:使用的算法(sha256、sha1、md5)hash_value:实际的哈希值(小写十六进制)inferred_asset_name:哈希对应的资产文件名source_location:哈希的发现位置(checksum_asset或release_body)checksum_asset_name:校验和文件名(如果适用)checksum_asset_url:校验和文件的直接下载 URL(如果适用)
JSON 结构示例
json { "metadata": { "generated_at": "2026-02-02T11:47:37Z", "repository": "notepad-plus-plus/notepad-plus-plus", "total_hashes": 1449 }, "hashes": [ { "version_tag": "v8.9.1", "release_title": "Notepad++ release 8.9.1", "release_date": "2026-01-26T14:52:34Z", "prerelease": false, "release_url": "https://github.com/notepad-plus-plus/notepad-plus-plus/releases/tag/v8.9.1", "hash_algorithm": "sha256", "hash_value": "85ea19609edb04ba320380fe81cde1e236a495633ba72c74734022d96efc8e1c", "inferred_asset_name": "npp.8.9.1.installer.arm64.exe", "source_location": "checksum_asset", "checksum_asset_name": "npp.8.9.1.checksums.sha256", "checksum_asset_url": "https://github.com/notepad-plus-plus/notepad-plus-plus/releases/download/v8.9.1/npp.8.9.1.checksums.sha256" } ] }
数据收集方法
处理流程
- API 枚举:使用 GitHub API 枚举所有 134 个发布版本
- 资产发现:检查每个发布版本是否包含匹配以下模式的校验和文件:
*.checksums.sha256*.sha256*checksum*sha256*
- 校验和解析:下载并解析 SHA-256 校验和文件
- 回退提取:对于没有校验和文件的发布版本,从发布正文/描述中解析:
- SHA-256 哈希(64 个十六进制字符)
- SHA-1 哈希(40 个十六进制字符)
- MD5 哈希(32 个十六进制字符)
- 去重:重复的哈希条目被跟踪但保留在数据集中
支持的哈希格式
解析器处理多种校验和文件格式:
<hash> <filename>(标准 *sum 输出)<hash> *<filename>(二进制模式 *sum)<algorithm>(<filename>)= <hash>(OpenSSL 风格)<filename>: <hash>或<filename> <hash>(内联风格)
数据质量说明
重复哈希
数据集中有 76 个哈希值出现多次。这通常发生在以下情况:
- 同一文件在校验和文件和发布说明中都被引用
- 构建工件在次要版本更新中产生相同的二进制文件
- 解析器从多个来源提取了相同的哈希
所有重复项均被保留以维护数据谱系。
缺失数据
10 个发布版本没有哈希数据可用:
- 非常旧的发布版本(v6.x 时代),当时未发布校验和
- 一些早期的 v8.x 发布版本,暂时省略了校验和文件
具体无哈希数据的发布版本请参见 run_log.txt。
哈希算法演进
| 时代 | 主要算法 | 来源 |
|---|---|---|
| v6.x - v7.4 | SHA-1 / MD5 | 发布说明(手动) |
| v7.5+ | SHA-256 | *.checksums.sha256 文件 |
使用许可
哈希数据本身是从公开可用的 Notepad++ 发布版本中提取的事实信息。收集脚本和本文档根据 MIT 许可证提供。




