CrypQ
收藏arXiv2024-11-27 更新2024-11-29 收录
下载链接:
https://github.com/dukedb-crypq
下载链接
链接失效反馈官方服务:
资源简介:
CrypQ是由杜克大学开发的基于动态、不断演变的以太坊区块链数据的数据库基准测试数据集。该数据集利用以太坊的公共区块链数据,提供了高容量、不断变化的数据集,反映了真实且活跃的加密货币市场的不可预测性。数据集大小约为24亿条记录,数据来源于以太坊区块链,通过Google BigQuery每日导出。数据集的创建过程包括从以太坊区块链中提取数据切片,进行数据转换和清理,并生成数据库修改语句。CrypQ主要应用于评估数据库系统在处理复杂、动态数据分布时的性能,特别是在成本基础查询优化和基数估计方面。
CrypQ is a database benchmark dataset developed by Duke University, based on dynamic and continuously evolving Ethereum blockchain data. This dataset leverages public blockchain data from Ethereum, offering a high-volume, ever-changing dataset that reflects the unpredictability of the real and active cryptocurrency market. The dataset contains approximately 2.4 billion records, sourced from the Ethereum blockchain and exported daily via Google BigQuery. The creation process of the dataset involves extracting data slices from the Ethereum blockchain, performing data transformation and cleaning, and generating database modification statements. CrypQ is primarily used to evaluate the performance of database systems when handling complex and dynamic data distributions, particularly in the context of cost-based query optimization and cardinality estimation.
提供机构:
杜克大学
创建时间:
2024-11-27
搜集汇总
数据集介绍

构建方式
CrypQ数据集的构建基于动态且不断演变的以太坊区块链数据。通过利用Google BigQuery从以太坊网络节点直接获取数据,并将其导出为每日更新的公共数据集,CrypQ能够提供一个高容量、持续演变的真实世界数据集。数据集的构建过程包括从BigQuery中提取所需的数据切片,进行必要的后处理以转换和清理数据,确保其符合CrypQ的结构化模式。此外,CrypQ还支持从以太坊区块链中提取更新工作负载,生成一系列数据库修改语句,以模拟数据库状态的动态变化。
使用方法
CrypQ数据集的使用方法包括初始数据库状态的批量加载和更新工作负载的逐步应用。用户首先从以太坊区块链中提取数据切片,加载到数据库中以创建初始状态。随后,用户可以执行一系列更新语句文件,每个文件对应一个时间窗口内的数据更新,从而模拟数据库状态的动态变化。此外,用户还可以选择性地保持数据库大小恒定,通过在添加新数据之前删除最旧的数据来实现。CrypQ还提供了一套相关的SQL查询,用于评估数据库系统在动态数据环境下的性能。
背景与挑战
背景概述
CrypQ数据集由Duke大学的Vincent Capol、Yuxi Liu、Haibo Xiu和Jun Yang等人于2024年创建,旨在解决现有数据库基准测试中动态数据处理能力的不足。CrypQ利用以太坊区块链的动态、公开数据,提供了一个高容量、不断演变的真实世界数据集。该数据集不仅反映了加密货币市场的不可预测性,还通过详细的模式、数据快照和更新序列,以及一系列相关的SQL查询,展示了其在评估复杂、动态数据分布下数据库系统性能方面的独特优势。CrypQ的引入为数据库系统在处理动态数据方面的性能评估提供了新的视角和工具,尤其在成本导向的查询优化和基数估计方面具有显著影响。
当前挑战
CrypQ数据集面临的挑战主要集中在两个方面:一是其所解决的领域问题,即动态数据处理的复杂性和不可预测性。以太坊区块链数据的不断变化和复杂分布,使得数据库系统在处理此类数据时面临巨大的挑战,尤其是在查询优化和基数估计方面。二是数据集构建过程中遇到的挑战,包括从以太坊区块链中提取和处理大规模数据的复杂性,以及如何有效地生成和维护高容量的数据更新序列。此外,如何确保数据集的动态变化能够真实反映实际应用场景,也是一个重要的挑战。
常用场景
经典使用场景
CrypQ数据集的经典使用场景在于评估数据库系统在处理动态、不断演化的数据时的性能。通过利用以太坊区块链的公开数据,CrypQ提供了一个高容量、不断更新的数据集,反映了真实加密货币市场的不可预测性。研究者可以利用CrypQ来测试和优化数据库系统在面对复杂、动态数据分布时的查询优化能力,特别是在成本导向的查询优化器和基数估计方面。
解决学术问题
CrypQ数据集解决了当前数据库基准测试中普遍存在的静态数据和合成数据无法真实反映动态数据特性的问题。它通过提供基于以太坊区块链的动态数据,帮助学术界研究数据库系统在处理时间变化的数据分布、数据插入和更新时的性能。这不仅有助于改进查询优化算法,还为基数估计和查询计划选择提供了实际的测试平台,推动了数据库系统在动态环境下的适应性和稳定性研究。
实际应用
在实际应用中,CrypQ数据集可用于评估和优化金融科技、区块链分析和加密货币交易平台的数据库系统。通过模拟真实世界的交易和数据更新,CrypQ帮助开发者在设计数据库系统时考虑到数据动态变化的复杂性,从而提高系统的响应速度和准确性。此外,CrypQ还可用于培训和教育,帮助学生和专业人士理解数据库系统在动态环境下的运作机制。
数据集最近研究
最新研究方向
在数据库系统领域,CrypQ数据集凭借其基于动态、不断演变的以太坊数据的特点,成为评估数据库系统在处理动态数据方面性能的前沿工具。CrypQ不仅提供了高容量、不断变化的数据集,还捕捉了真实加密货币市场的不可预测性。其研究方向主要集中在数据库系统的查询优化和基数估计上,特别是在处理复杂、动态数据分布时的性能评估。通过CrypQ,研究人员能够更真实地模拟和测试数据库系统在面对高频更新和复杂数据依赖时的适应性和优化能力,这对于提升数据库系统在实际应用中的稳定性和效率具有重要意义。
相关研究论文
- 1CrypQ: A Database Benchmark Based on Dynamic, Ever-Evolving Ethereum Data杜克大学 · 2024年
以上内容由遇见数据集搜集并总结生成



