smart_app_data.csv

github2024-12-06 更新2024-12-07 收录

下载链接：

https://github.com/Kreative-Performative-Individuals/smart-industrial-database

下载链接

链接失效反馈

官方服务：

资源简介：

用于填充数据库进行测试或演示的CSV格式数据集。

A CSV-formatted dataset used for populating databases during testing or demonstration.

创建时间：

2024-11-18

原始信息汇总

Industry 5.0 Data Architecture for Smart Applications

数据集概述

该数据集包含用于探索和实现Industry 5.0数据架构框架的资源和工具，支持智能应用的实时数据摄取和处理，并可用于大学课程的教育目的。

数据集内容

文件和目录

backup.py: 用于管理数据库备份并将文件保存到适当目录的Python脚本。
file_cloud_backup.sh: 用于将备份文件自动上传到云存储服务的shell脚本。
main.py: FastAPI应用程序的主入口点，提供API端点。
run_backup.sh: 用于触发数据库计划备份的shell脚本。
.env: 包含数据库凭证、API设置和其他敏感信息的环境变量配置文件。
backups_decryption:
- decrypt_backup.py: 用于解密加密数据库备份文件的Python脚本。
- generate_key.py: 用于生成和保存新加密密钥的Python脚本，用于备份安全。
build_db.sh: 用于初始化新数据库实例、应用架构并从提供的SQL转储文件导入初始数据的shell脚本。
docker-compose.yml: 用于协调项目所需服务的Docker Compose配置文件（例如，数据库、API、备份）。
dockerfile: 用于构建包含数据库工具和FastAPI应用程序的自定义Docker镜像的Dockerfile。
exports.sql: 包含项目架构和种子数据的PostgreSQL转储文件。
images:
- architecture_diagram.png: 项目架构的图示。
- er_schema.png: 数据库设计的实体关系图。
LICENSE: 指定项目使用条款的许可证文件。
README.md: 当前正在阅读的文件。
requirements.txt: 列出项目所需安装的所有Python包的文件。
smart_app_data.csv: 用于填充数据库以进行测试或演示目的的CSV格式数据集。
test_database.py: 包含用于验证数据库功能的单元测试的Python脚本。

数据库架构

该项目使用定制版本的PostgreSQL，包括以下扩展：

TimescaleDB: 用于优化PostgreSQL以快速摄取和复杂查询的时间序列扩展。
pgvector: 提供向量相似性搜索和索引支持的PostgreSQL扩展。
pgcrypto: 提供加密和解密数据功能的PostgreSQL扩展。

数据库设置

先决条件

需要在机器上安装Docker。
需要在机器上安装Git。

数据库设置步骤

使用以下命令克隆仓库到本地机器： bash git clone https://github.com/Kreative-Performative-Individuals/smart-industrial-database
导航到克隆的仓库并执行以下命令以构建和运行Docker容器： bash docker compose up --build
数据库实例将在端口5432上可用，pgAdmin实例将在端口5051上可用。

数据库测试

进入容器： bash docker exec -it kpi-database bash
进入/app目录： bash cd /app
运行测试： bash source /opt/venv/bin/activate pytest test_database.py -v

API测试

启动容器并使用build_db.sh填充数据库后，可以访问http://localhost:8002/docs尝试API端点。

数据库架构和ER图

架构图: 展示了Industry 5.0数据架构的整体设计，包括实时数据流和处理管道。
ER图: 展示了数据库模式中实体之间的关系。

安全措施

密码哈希+盐: PostgreSQL用户的密码默认进行哈希和加盐处理，确保不以明文存储在数据库中。
特定列的加密: 用户个人数据在存储前进行加密，确保数据安全。
数据库备份加密: 数据库备份在保存到backups_encrypted目录前进行加密，确保备份文件安全。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于Industry 5.0的数据架构框架，专为智能应用设计。通过使用定制版本的PostgreSQL数据库，结合TimescaleDB、pgvector和pgcrypto扩展，实现了对时间序列数据的高效处理、向量相似性搜索以及数据加密功能。数据集的初始化通过`build_db.sh`脚本完成，该脚本不仅创建了数据库实例，还导入了初始数据，确保了数据库的完整性和可用性。

特点

此数据集的主要特点在于其高度集成和优化的数据处理能力。通过TimescaleDB扩展，数据集能够高效地处理和查询时间序列数据；pgvector扩展则提供了向量相似性搜索功能，增强了数据分析的深度和广度。此外，pgcrypto扩展确保了数据的安全性，通过加密和解密功能保护敏感信息。

使用方法

使用该数据集时，首先需确保本地安装了Docker和Git。通过克隆GitHub仓库并执行`docker compose up --build`命令，即可启动数据库实例和pgAdmin管理平台。用户可以通过pgAdmin界面连接到数据库，进行数据查询和管理。此外，通过访问`http://localhost:8002/docs`，用户可以测试和使用FastAPI实现的API端点，进一步探索数据集的功能和应用。

背景与挑战

背景概述

smart_app_data.csv数据集是针对工业5.0智能应用的数据架构框架的一部分，由比萨大学智能应用课程的研究团队创建。该数据集旨在支持实时数据摄取和处理，特别适用于教育目的。其核心研究问题围绕如何优化工业5.0环境下的数据管理，通过使用定制版本的PostgreSQL，结合TimescaleDB、pgvector和pgcrypto扩展，以实现高效的数据存储和处理。此数据集不仅为学术研究提供了丰富的资源，还为工业界提供了实用的数据管理解决方案，推动了智能应用领域的发展。

当前挑战

smart_app_data.csv数据集在构建过程中面临多项挑战。首先，实时数据摄取和处理要求高效率和高可靠性，这对数据架构的设计和实现提出了严格要求。其次，数据的安全性和隐私保护是工业5.0应用中的关键问题，需要通过加密和安全措施来确保数据不被未授权访问。此外，数据集的多样性和复杂性增加了数据管理和分析的难度，要求开发和维护复杂的查询和处理工具。最后，教育用途的数据集还需确保其易用性和可扩展性，以便学生和研究人员能够方便地进行实验和研究。

常用场景

经典使用场景

在智能应用领域，smart_app_data.csv数据集常用于支持实时数据摄取和处理，特别是在工业5.0的背景下。该数据集通过其丰富的结构化信息，为智能应用提供了基础数据支持，使得开发者能够快速构建和测试基于实时数据流的智能应用。此外，该数据集还广泛应用于大学课程中，作为教学和研究的基础数据，帮助学生和研究人员理解和实践智能应用的数据架构设计。

实际应用

在实际应用中，smart_app_data.csv数据集被广泛用于工业自动化和智能监控系统。例如，在制造业中，该数据集可以用于实时监控生产线的状态，并通过数据分析提供预测性维护建议。在智能城市项目中，数据集可以用于管理交通流量、能源消耗和环境监测。此外，该数据集还被用于开发智能应用的API，支持第三方开发者构建和扩展智能应用生态系统。

衍生相关工作

smart_app_data.csv数据集的发布和应用催生了多项相关研究和工作。例如，基于该数据集的研究论文探讨了时间序列数据的高效处理方法和智能应用的架构设计。此外，数据集的加密和安全措施也激发了关于数据隐私保护和安全策略的研究。在教育领域，该数据集被用于开发多个教学案例和实验，帮助学生掌握智能应用开发的核心技能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集