ledger
收藏Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/appendpage/ledger
下载链接
链接失效反馈官方服务:
资源简介:
appendpage/ledger数据集是append.page上每个页面的公共镜像,大约每10分钟更新一次,以反映任何链式变化。数据集中的每个文件位于pages/目录下,采用JCS规范化的JSONL格式,代表一个页面的链式条目。每个条目通过哈希与前一个条目链接,确保数据的完整性,任何后续的编辑、删除或重新排序都可以被数学检测到。数据集提供了验证页面链完整性的Python脚本,并演示了如何将数据加载到Python中。适用于需要验证数据完整性和透明性的场景,如公共账本、反馈系统等。数据集的源代码来自appendpage的后端和前端仓库,采用MIT许可证,由@da03维护。
The appendpage/ledger dataset is a public mirror of every page on append.page, updated approximately every 10 minutes to reflect any chain changes. Each file in the dataset is located in the pages/ directory and is in JCS-normalized JSONL format, representing a chain entry of a page. Each entry is linked to the previous one via a hash, ensuring data integrity, and any subsequent edits, deletions, or reordering can be mathematically detected. The dataset includes a Python script for verifying the integrity of the page chain and demonstrates how to load the data into Python. It is suitable for scenarios requiring data integrity and transparency, such as public ledgers, feedback systems, etc. The datasets source code comes from appendpages backend and frontend repositories, licensed under MIT, and is maintained by @da03.
创建时间:
2026-04-22
原始信息汇总
数据集概述
该数据集是 append.page 网站上所有页面的公开镜像,每约10分钟推送一次更新(当任何页面链发生变化时)。
基本信息
- 数据集名称:append.page ledger
- 许可证:MIT
- 标签:feedback, append-only, public-ledger
- 维护者:@da03
- 最后自动生成时间:2026-04-23T16:03:33Z
数据结构
- 每个页面存放在
pages/目录下,文件格式为 JCS-canonicalized JSONL 链。 - 链中每个条目通过哈希链与前一个条目链接,任何后续编辑、删除或重排操作均可被数学检测——前提是持有之前快照的副本(本数据集即为此类快照,HuggingFace 同时保留完整 Git 历史)。
使用方法
验证一个页面
运行以下命令可验证链的完整性: bash python verify.py pages/advisors.jsonl
退出码为 0 表示链完整。验证器为纯Python实现(约50行,依赖标准库 + jcs 包用于RFC 8785规范化),代码位于该仓库中。
加载到 Python
python import json with open("pages/advisors.jsonl") as f: entries = [json.loads(line) for line in f if line.strip()] print(len(entries), "entries")
相关文档
- 线格式 + API + 验证器模型:https://append.page/AGENTS.md
- 机器可读规范:https://append.page/api/spec.json
源码仓库
搜集汇总
数据集介绍

构建方式
在去中心化协作与公共账本技术日益受到关注的当下,ledger数据集应运而生,旨在为append.page平台上的每个页面提供一个不可篡改的公开镜像。该数据集的构建依托于一个自动化的推送机制,大约每十分钟检测一次链上变更,一旦任何页面链发生更新,便立即将最新状态同步至数据集中。每个页面下的数据存储为一个独立的JSONL文件,其内容遵循JCS(RFC 8785)规范化格式,从而确保数据表示的确定性。尤为关键的是,每条记录通过哈希与前一条紧密链接,形成一条加密学意义上的链条,任何后期对记录的编辑、删除或重排操作,均会破坏链的完整性,从而被持有先前快照的用户数学上精确地检测出来。HuggingFace平台同时保留了该数据集的完整Git历史,进一步增强了可追溯性与数据恢复能力。
特点
ledger数据集最显著的特点在于其数学可验证的完整性与透明性。不同于传统数据集仅提供静态快照,该数据集内嵌了一个约50行自包含Python代码的校验器,用户只需一条命令行指令即可验证任意页面链的完整性,若返回退出码0,则证明整个条目序列自始至今未被篡改。这种设计使得数据集不仅是一个存储仓库,更是一个可独立运行的真实性证明工具。此外,其近乎实时的更新频率(约十分钟)确保了数据的高时效性,适用于监控、审计及协作场景。数据集以MIT许可证开放,降低了使用门槛,而统一的JCS规范化格式则保证了跨语言、跨平台处理的互操作性,为社区驱动的公共账本研究提供了可靠的数据基石。
使用方法
使用ledger数据集进行开发与研究极为便捷。用户可直接从HuggingFace仓库克隆或下载数据,每个页面对应的JSONL文件位于pages/目录下,其文件名暗示了页面主题(如advisors.jsonl)。在Python环境中,通过标准json库即可逐行加载文件内容,将其解析为字典列表,进而获取条目总数与具体信息。对于需要验证数据完整性的场景,数据集提供了verify.py脚本,用户仅需指定目标页面文件路径并运行脚本,通过检查退出码即可确认链的合法性。更深入的接口与协议规范可参考官方文档(AGENTS.md)与机器可读的API规格说明(spec.json),以便于实现定制化的数据消费、分析或实时监控系统。
背景与挑战
背景概述
在数字时代,内容协作与版本控制的透明性和防篡改性成为关键需求。ledger数据集由研究者@da03于2026年创建,旨在记录append.page平台上每个页面的不可变、仅追加的历史链。该数据集以JSONL格式存储,每10分钟自动更新,通过哈希链技术确保任何编辑、删除或重排操作都能被数学上可检测。其核心研究问题在于构建一个公开、可验证的公共账本,为去中心化内容管理提供可靠的数据基础。作为append.page生态的镜像,该数据集对推动透明度计算、数据完整性验证及协作式内容系统领域具有重要影响力,为后续研究提供了宝贵的实时历史记录。
当前挑战
ledger数据集面临多层面挑战。在领域问题层面,它主要解决内容协作系统中数据篡改和版本模糊性的难题,通过哈希链实现不可抵赖的变更追踪,确保任何历史操作均可验证。在构建过程中,挑战包括:实时同步append.page上数百个活跃链的频繁更新,每10分钟捕获状态变化以避免数据丢失;处理因网络延迟或并发写入导致的链不一致问题;设计高效的JSONL存储与验证逻辑,例如使用RFC 8785规范进行JCS规范化,以确保跨环境数据兼容性;以及维护约50行自包含验证器代码的可靠性,使其能在不依赖外部库的情况下工作,从而降低使用门槛。这些挑战共同塑造了数据集的高完整性和可用性。
常用场景
经典使用场景
在分布式账本与内容可验证性研究领域,ledger数据集作为append.page平台的公开镜像,记录了每一页面不可篡改的JSONL链式历史。研究者可借此追溯页面从创建到每一次编辑的完整演进路径,通过哈希链的数学约束验证数据完整性。其典型使用场景涵盖链式数据结构验证、时间戳顺序分析以及去中心化内容管理系统的原型设计,尤其适合探索基于追加写入模式下的数据一致性保障机制。
实际应用
在实际部署中,ledger数据集可支撑文档版本审计、法规合规追溯及协作内容平台的后台验证引擎。例如,法律条款的修订历史、科研数据的版本记录或公共公告的不可否认性证明均能从中受益。开发者可利用约50行自包含Python代码快速验证页面链的完整性,无需引入复杂区块链系统,即可在司法取证、出版存档或供应链记录等场景中实现低成本、高可信的历史回溯。
衍生相关工作
基于ledger数据集的核心哈希链与规范序列化机制,已衍生出多项关键工作。包括对JCS规范(RFC 8785)在增量验证中的性能评估、基于Git历史与HuggingFace镜像的协同存储架构设计,以及针对追加式账本在IoT设备日志同步中的适配研究。此外,其自包含的验证模块启发了若干轻量级审计工具链,推动了对附录只读数据结构与内容寻址网络(如IPFS)整合的探索,进一步拓展了可验证数据容器在去中心化应用中的边界。
以上内容由遇见数据集搜集并总结生成



