finance dataset, Gitlog dataset, Chicago Sensors dataset, Ecommerce Stats dataset
收藏github2024-04-25 更新2024-05-31 收录
下载链接:
https://github.com/questdb/sample-datasets
下载链接
链接失效反馈官方服务:
资源简介:
金融数据集(加密/市场数据)包含三个独立的时间重叠表,可单独探索或使用AS OF连接;Gitlog数据集(日志/活动)包含来自三个开源GitHub仓库的活动日志;芝加哥传感器数据集(物联网)包含芝加哥公园区在海滩上维护的水传感器数据;电子商务统计数据集(电子商务)包含国际电子商务网站的合成统计数据。
The financial dataset (crypto/market data) comprises three independent, temporally overlapping tables that can be explored individually or connected using AS OF joins. The Gitlog dataset (logs/activities) contains activity logs from three open-source GitHub repositories. The Chicago sensor dataset (IoT) includes data from water sensors maintained by the Chicago Park District on beaches. The e-commerce statistics dataset (e-commerce) consists of synthetic statistical data from international e-commerce websites.
创建时间:
2023-09-06
原始信息汇总
QuestDB Sample Datasets Summary
Overview
The QuestDB Sample Datasets include four curated datasets, totaling 8 tables, designed for ingestion into QuestDB. Each dataset is accompanied by business questions and corresponding SQL queries.
Dataset Details
Finance Dataset (Crypto/Market Data)
- Tables: 3
btc_trade: 5882 rowsnasdaq_trades: 14842 rowsnasdaq_open_close: 13590 rows
- Description: Contains Bitcoin/USD trades and historical Open/Close/Low/High information for nine nasdaq-listed companies.
Gitlog Dataset (logs/activity)
- Table: 1
- Rows: ~174K
- Description: Logs from three open source repositories on GitHub: QuestDB, Go, and Kubernetes.
Chicago Sensors Dataset (IoT)
- Tables: 3
chicago_sensor_locations: 9 rowschicago_water_sensors: ~42K rowschicago_weather_stations: ~160K rows
- Description: Data from sensors in the water at beaches along Chicagos Lake Michigan lakefront, capturing hourly measurements.
Ecommerce Stats Dataset (ecommerce)
- Table: 1
- Rows: 5475
- Description: Synthetic statistics for an international ecommerce website, covering a year of daily records for each country and category.
Ingestion Instructions
Each dataset includes CREATE TABLE statements and instructions for CSV file import using the REST API or directly via the QuestDB web console.
搜集汇总
数据集介绍

构建方式
该数据集的构建基于四个精心挑选的样本数据集,涵盖了金融、Git日志、芝加哥传感器和电子商务统计等多个领域。这些数据集中的大部分数据来源于公开数据源,确保了数据的可靠性和真实性。每个数据集都包含一个或多个表格,且数据量适中,最大数据集包含约17万行数据,便于在小型机器上快速导入。在构建过程中,每个数据集都配备了相应的`CREATE TABLE`语句,以确保在导入CSV文件时,QuestDB能够正确识别列类型和指定的时间戳。
使用方法
使用这些数据集时,首先需要在本地QuestDB安装中执行相应的`CREATE TABLE`语句,以确保表格结构与数据匹配。随后,可以通过QuestDB的REST API或Web控制台导入CSV文件。每个数据集的详情页面都提供了详细的导入指令,确保用户能够顺利完成数据导入和查询。此外,这些数据集的设计考虑了快速导入的需求,即使在资源有限的环境中也能高效运行。
背景与挑战
背景概述
QuestDB样本数据集是由QuestDB团队精心策划的四个数据集,涵盖金融、Git日志、芝加哥传感器和电子商务统计等领域。这些数据集旨在展示如何将真实或合成的数据快速导入QuestDB,并提供相应的SQL查询示例以解答业务问题。其中,金融数据集包含比特币与纳斯达克交易数据,Git日志数据集记录了三个开源项目的活动日志,芝加哥传感器数据集则反映了湖滨水质与天气监测数据,而电子商务统计数据集则提供了国际电商平台的合成统计数据。这些数据集的创建不仅为数据分析提供了丰富的资源,也为相关领域的研究与应用提供了有力的支持。
当前挑战
这些数据集在构建过程中面临多项挑战。首先,金融数据集需要处理不同时间序列的交叉与合并,确保数据的一致性与准确性。Git日志数据集则需从多个开源项目中提取并整合活动日志,确保数据的完整性与时效性。芝加哥传感器数据集涉及大量传感器数据的采集与处理,需应对数据缺失与异常值的问题。电子商务统计数据集虽为合成数据,但其生成过程需模拟真实业务场景,确保数据的合理性与可用性。此外,所有数据集在导入QuestDB时,需确保表结构的正确性,以避免因模式不匹配导致的查询失败。
常用场景
经典使用场景
在金融数据分析领域,finance dataset 提供了比特币与纳斯达克上市公司的交易数据,涵盖了比特币/美元交易、九家纳斯达克上市公司的交易记录以及这些公司的历史开盘/收盘/最低/最高信息。这些数据可以通过时间重叠的表进行单独或联合分析,特别适用于市场趋势预测、投资组合优化以及金融风险管理等经典场景。
解决学术问题
finance dataset 解决了金融领域中关于市场动态和投资策略的学术研究问题。通过分析比特币与传统股票市场的关联性,研究者可以探讨加密货币与传统金融市场的互动机制,为资产定价模型和风险评估提供新的视角。此外,该数据集还为时间序列分析提供了丰富的实证数据,推动了金融计量学的发展。
实际应用
在实际应用中,finance dataset 被广泛用于金融机构的量化交易策略开发、风险管理和市场监控。例如,投资银行和资产管理公司可以利用这些数据进行高频交易策略的优化,而监管机构则可以通过分析市场数据来识别潜在的金融风险,从而制定更为有效的监管政策。
数据集最近研究
最新研究方向
在金融数据分析领域,最新的研究方向集中在利用高频交易数据和加密货币市场的动态变化进行预测模型构建。通过整合比特币交易数据与纳斯达克上市公司历史数据,研究者们正在探索如何利用时间序列分析和机器学习算法,提高市场趋势预测的准确性。此外,跨市场数据的时间序列连接技术,如`AS OF`连接,也成为研究热点,旨在提升多源数据整合的效率和精度。这些研究不仅有助于金融市场的风险管理,还为投资者提供了更为精准的决策支持工具。
以上内容由遇见数据集搜集并总结生成



