Simulated Credit Card Fraud Dataset

github2024-10-22 更新2024-10-25 收录

下载链接：

https://github.com/faizpuad/DataEngineeringProject-DocumentStreamingWithData

下载链接

链接失效反馈

资源简介：

该数据集是一个模拟的信用卡欺诈数据集，包含从2019年1月1日至2020年12月31日的合法和欺诈交易。数据集包括1000名客户和800家商户的交易，涵盖了交易时间、商户详情、客户信息和欺诈标志等广泛属性。

This dataset is a simulated credit card fraud dataset containing legitimate and fraudulent transactions spanning from January 1, 2019 to December 31, 2020. It includes transactions involving 1000 customers and 800 merchants, and covers a comprehensive set of attributes such as transaction time, merchant details, customer information, and fraud labels.

创建时间：

2024-10-21

原始信息汇总

💳 Credit Card Fraud Transaction as Document Streaming Practice

🌟 Introduction

Objective: Simulate the data engineering pipeline, implement real-time data streaming and batch processing, and identify project architecture drawbacks.
Scenario: Helps data analysts and scientists identify fraudulent transactions and create custom dashboards.

📊 The Data Set

Source: Simulated credit card fraud dataset from Kaggle.
Coverage: Transactions from 1st January 2019 to 31st December 2020, involving 1000 customers and 800 merchants.
Attributes:
- trans_date_trans_time: Transaction date and time
- cc_num: Credit card number
- merchant: Merchant name
- category: Merchant category
- amt: Transaction amount
- first: First name of credit card holder
- last: Last name of credit card holder
- gender: Gender of credit card holder
- street: Street address of credit card holder
- city: City of credit card holder
- state: State of credit card holder
- zip: ZIP code of credit card holder
- lat: Latitude of credit card holders location
- long: Longitude of credit card holders location
- city_pop: Population of the cardholders city
- job: Job of the credit card holder
- dob: Date of birth of credit card holder
- trans_num: Unique transaction identifier
- unix_time: Unix timestamp for the transaction
- merch_lat: Latitude of the merchants location
- merch_long: Longitude of the merchants location
- is_fraud: Fraud flag (Target variable: 1 = Fraud, 0 = Not Fraud)

🏗️ Project Architecture

Phases:
1. Client: Origin point of raw data.
2. Connect: Data extraction, transformation, and sending to an endpoint.
3. Buffer: Queuing system for real-time data streams.
4. Processing: Data transformation and cleaning.
5. Storage: Storing processed data in a database.
6. Visualization: Analyzing and displaying processed data.

🔄 Stream Processing Pipeline

Client: Raw data in CSV format, transformed using Python and POSTed to an API.
Connect: FASTAPI framework for data validation and transformation.
Buffer: Kafka for real-time streaming.
Processing: Spark processes raw data from Kafka.
Storage: MongoDB stores processed data.
Visualization: Streamlit web app for data visualization.

🚧 Project Challenges

Handling nested JSON schema and communicating with services.
Troubleshooting HTTP 500 errors and ensuring real-time data flow correctness.

🎓 Conclusion

Demonstrates end-to-end document streaming and real-time data processing.
Key learnings include Kafka, Spark, and MongoDB usage.

🚀 Recommendation

Areas for improvement include enhancing project complexity and data quality.

AI搜集汇总

数据集介绍

构建方式

该数据集通过模拟信用卡交易的方式构建，涵盖了从2019年1月1日至2020年12月31日的合法与欺诈交易记录。数据集包含1000名客户和800家商户的交易信息，旨在模拟真实世界中的信用卡交易环境。构建过程中，采用了Kaggle上的模拟数据，并通过数据工程管道进行处理，包括数据提取、存储和可视化。此外，利用Kafka进行消息缓冲，Spark进行数据处理，以实现实时数据流和批处理。

使用方法

使用该数据集时，用户可以通过Python脚本将CSV格式的原始数据转换为JSON格式，并通过API进行数据清洗和转换。随后，数据通过Kafka进行缓冲，由Spark进行进一步处理，最终存储在MongoDB中。用户可以通过Streamlit应用进行数据可视化，实现对交易数据的实时监控和分析。此外，数据集的结构化设计使其适用于机器学习模型的训练和评估，特别是在欺诈检测领域。

背景与挑战

背景概述

在金融科技领域，信用卡欺诈检测一直是研究的热点和难点。Simulated Credit Card Fraud Dataset由Kaggle提供，涵盖了2019年1月1日至2020年12月31日的信用卡交易数据，包括1000名客户和800家商户的合法及欺诈交易。该数据集的主要研究人员或机构未明确提及，但其核心研究问题在于通过模拟数据流处理技术，实现从数据提取到存储和可视化的全流程模拟，从而为实时欺诈检测提供数据支持。该数据集的发布对金融科技领域的影响力在于，它为研究人员和工程师提供了一个标准化的数据平台，用于开发和测试信用卡欺诈检测算法，推动了该领域的技术进步。

当前挑战

Simulated Credit Card Fraud Dataset在构建过程中面临多个挑战。首先，处理和转换嵌套的JSON模式是一个主要难题，这要求研究人员具备高超的数据处理技能。其次，确保各服务之间的有效通信，特别是在本地主机与服务名称之间的切换过程中，常常导致HTTP 500错误代码的出现，增加了调试的复杂性。此外，数据的标准化问题，如日期格式的统一，也是构建过程中的一大挑战。最后，确保实时数据流的正确性和完整性，避免数据丢失或错误，是该数据集在实际应用中需要解决的关键问题。

常用场景

经典使用场景

在金融科技领域，Simulated Credit Card Fraud Dataset 数据集的经典使用场景主要集中在实时欺诈检测和数据流处理。该数据集通过模拟2019年至2020年的信用卡交易，涵盖了1000名客户和800家商户的交易记录，包括合法和欺诈交易。通过使用Kafka进行消息缓冲和Spark进行数据处理，研究人员和工程师可以构建实时数据流处理管道，从而实现对信用卡交易数据的实时监控和分析，有效识别潜在的欺诈行为。

解决学术问题

Simulated Credit Card Fraud Dataset 数据集解决了金融科技领域中常见的欺诈检测问题。通过提供丰富的交易数据和详细的欺诈标记，该数据集为学术研究提供了宝贵的资源。研究人员可以利用这些数据开发和验证新的欺诈检测算法，提升模型的准确性和实时性。此外，该数据集还促进了数据工程和流处理技术的研究，推动了相关领域的技术进步。

实际应用

在实际应用中，Simulated Credit Card Fraud Dataset 数据集被广泛用于金融机构的欺诈检测系统。通过模拟真实世界的信用卡交易数据，金融机构可以训练和优化其欺诈检测模型，提高对异常交易的识别能力。此外，该数据集还支持开发定制化的数据可视化工具和报告系统，帮助分析师和决策者更直观地监控交易活动，及时发现和应对潜在的欺诈风险。

数据集最近研究