Bitcoin Transaction Corpus
收藏github2024-01-02 更新2024-05-31 收录
下载链接:
https://github.com/rustyrussell/bitcoin-corpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从运行中的4个完整比特币节点收集的内存池数据集,包含了对交易进行注释的补丁。数据集以BSD-MIT许可证发布。每个记录反映了新接受的交易或新块到来时内存池的相对状态。数据集包括多种类型的交易记录,如INCOMING_TX、COINBASE、UNKNOWN、KNOWN和MEMPOOL_ONLY。数据集还包含了四个孤立块的信息,以及六个在特定情况下应从内存池中移除的交易。
This dataset is collected from four operational full Bitcoin nodes, encompassing annotated patches for transactions. It is released under the BSD-MIT license. Each record reflects the relative state of the memory pool when a new transaction is accepted or a new block arrives. The dataset includes various types of transaction records, such as INCOMING_TX, COINBASE, UNKNOWN, KNOWN, and MEMPOOL_ONLY. Additionally, it contains information on four orphaned blocks and six transactions that should be removed from the memory pool under specific conditions.
创建时间:
2015-04-27
原始信息汇总
数据集概述
数据集名称
Bitcoin Transaction Corpus
数据集内容
该数据集包含从运行4个完整比特币节点中收集的比特币内存池(mempool)数据,这些节点应用了交易注释补丁。数据集以BSD-MIT许可证发布。
数据格式
- 数据以小端字节序的二进制格式存储,并使用XZ压缩。
- 每个记录包括时间戳、类型、区块号和交易ID。
- 交易类型包括:INCOMING_TX, COINBASE, UNKNOWN, KNOWN, MEMPOOL_ONLY。
数据使用
- 通常需要完整的比特币节点(带txindex)来从哈希获取交易内容。
- 数据集中的内存池在大约一天后达到稳定状态,建议使用区块352305之后的数据。
数据集特殊情况
- 数据集中有四个孤立区块,分别位于不同的数据集。
- 在非孤立区块353014之后,有六个交易从sf-rn和au内存池中消失,建议在分析时移除这些交易。
数据收集
- 数据收集使用了比特币源代码的补丁(collection/bitcoin-core-patch.diff)。
- 所有节点基于0.10预发布版本,并应用了自动修剪的拉取请求。
- 节点分布在不同地理位置,包括旧金山、新加坡、阿德莱德和旧金山RelayNode。
- 数据收集开始于2015年4月15日,持续了八天。
联系方式
如需进一步信息或支持,请通过GitHub问题或电子邮件 rusty@rustcorp.com.au 联系。
搜集汇总
数据集介绍

构建方式
Bitcoin Transaction Corpus数据集的构建基于对四个比特币全节点的内存池(mempool)进行监控和记录。通过在比特币源代码中应用特定补丁,这些节点能够标注交易信息。所有节点均运行在比特币0.10预发布版本上,并基于自动修剪(autoprune)功能进行配置。数据收集过程中,节点分别部署在旧金山、新加坡和阿德莱德等不同地理位置,以反映不同网络条件下的交易行为。数据记录持续了八天,最终通过自定义的编码程序将结果转换为二进制格式。
特点
该数据集以二进制格式存储,采用XZ压缩,记录了比特币内存池中的交易状态变化。每条记录包含时间戳、交易类型、区块编号和交易ID等信息。交易类型分为新交易、Coinbase交易、未知交易、已知交易和仅存在于内存池中的交易。数据集还包含四个孤块(orphan blocks)的信息,这些孤块在不同节点中的表现存在差异,为研究比特币网络的交易传播和确认机制提供了独特视角。
使用方法
使用Bitcoin Transaction Corpus时,需先解压缩二进制文件,并加载到C语言数组中进行解析。由于数据集仅包含交易哈希,用户需运行完整的bitcoind节点(启用txindex)以获取交易的具体内容。建议从区块352305开始使用数据,以确保内存池达到稳定状态。对于孤块相关的交易,用户需根据节点类型进行筛选和移除,以避免数据不一致性。通过结合比特币命令行工具(如bitcoin-cli getrawtransaction),用户可进一步分析交易细节和网络行为。
背景与挑战
背景概述
Bitcoin Transaction Corpus 数据集由 Rusty Russell 等人于2015年创建,旨在通过运行四个比特币全节点,收集并标注比特币内存池中的交易数据。该数据集的核心研究问题在于理解比特币网络中交易的传播与确认机制,特别是在不同网络环境下的表现。数据集通过对比特币核心代码进行补丁修改,记录了交易进入内存池、区块确认等关键事件的时间戳和类型信息。这一数据集为研究比特币网络的交易动态、内存池行为以及网络拓扑结构提供了宝贵的数据支持,对区块链技术的研究与优化具有重要影响。
当前挑战
Bitcoin Transaction Corpus 数据集在构建过程中面临多重挑战。首先,数据采集需要在不同网络环境下运行多个比特币全节点,确保数据的多样性和代表性,这对硬件资源和网络带宽提出了较高要求。其次,数据格式的复杂性要求研究人员具备深入的技术理解,以便正确解码和分析二进制格式的交易记录。此外,数据集中包含的孤立区块和消失的交易增加了数据处理的复杂性,研究人员需要仔细处理这些异常情况,以确保分析结果的准确性。最后,数据集的使用依赖于完整的比特币节点和交易索引,这对计算资源和存储空间提出了额外要求,增加了数据使用的门槛。
常用场景
经典使用场景
Bitcoin Transaction Corpus数据集在区块链研究领域具有重要价值,尤其在比特币交易行为分析中表现突出。研究者通常利用该数据集深入探讨比特币网络中的交易传播机制、内存池动态变化以及区块生成过程中的交易处理策略。通过分析不同类型交易(如INCOMING_TX、COINBASE等)的分布与时间序列,能够揭示比特币网络中的交易优先级与确认延迟等关键特征。
衍生相关工作
基于Bitcoin Transaction Corpus数据集,许多经典研究工作得以展开。例如,研究者开发了基于内存池动态的交易确认时间预测模型,为比特币用户提供了更准确的交易确认时间估计。此外,该数据集还被用于研究比特币网络中的交易传播延迟与网络拓扑结构的关系,为优化比特币网络的性能提供了理论依据。
数据集最近研究
最新研究方向
在区块链技术迅猛发展的背景下,Bitcoin Transaction Corpus数据集为研究比特币交易动态提供了宝贵的资源。该数据集通过记录比特币节点的内存池状态,为分析交易传播、确认时间及网络拓扑结构等关键问题提供了实证基础。近年来,研究者们利用该数据集深入探讨了比特币网络的交易延迟、双花攻击检测以及交易费用优化等前沿问题。特别是在比特币网络拥堵和交易费用波动的背景下,该数据集为开发更高效的交易调度算法和网络优化策略提供了重要支持。此外,随着区块链技术的应用场景不断扩展,该数据集在跨链交易、智能合约执行效率等领域的研究中也展现出广泛的应用潜力。
以上内容由遇见数据集搜集并总结生成



