five

Simulated Credit Card Fraud Dataset

收藏
github2024-10-22 更新2024-10-25 收录
下载链接:
https://github.com/faizpuad/DataEngineeringProject-DocumentStreamingWithData
下载链接
链接失效反馈
资源简介:
该数据集是一个模拟的信用卡欺诈数据集,包含从2019年1月1日至2020年12月31日的合法和欺诈交易。数据集包括1000名客户和800家商户的交易,涵盖了交易时间、商户详情、客户信息和欺诈标志等广泛属性。

This dataset is a simulated credit card fraud dataset containing legitimate and fraudulent transactions spanning from January 1, 2019 to December 31, 2020. It includes transactions involving 1000 customers and 800 merchants, and covers a comprehensive set of attributes such as transaction time, merchant details, customer information, and fraud labels.
创建时间:
2024-10-21
原始信息汇总

💳 Credit Card Fraud Transaction as Document Streaming Practice

🌟 Introduction

  • Objective: Simulate the data engineering pipeline, implement real-time data streaming and batch processing, and identify project architecture drawbacks.
  • Scenario: Helps data analysts and scientists identify fraudulent transactions and create custom dashboards.

📊 The Data Set

  • Source: Simulated credit card fraud dataset from Kaggle.
  • Coverage: Transactions from 1st January 2019 to 31st December 2020, involving 1000 customers and 800 merchants.
  • Attributes:
    • trans_date_trans_time: Transaction date and time
    • cc_num: Credit card number
    • merchant: Merchant name
    • category: Merchant category
    • amt: Transaction amount
    • first: First name of credit card holder
    • last: Last name of credit card holder
    • gender: Gender of credit card holder
    • street: Street address of credit card holder
    • city: City of credit card holder
    • state: State of credit card holder
    • zip: ZIP code of credit card holder
    • lat: Latitude of credit card holders location
    • long: Longitude of credit card holders location
    • city_pop: Population of the cardholders city
    • job: Job of the credit card holder
    • dob: Date of birth of credit card holder
    • trans_num: Unique transaction identifier
    • unix_time: Unix timestamp for the transaction
    • merch_lat: Latitude of the merchants location
    • merch_long: Longitude of the merchants location
    • is_fraud: Fraud flag (Target variable: 1 = Fraud, 0 = Not Fraud)

🏗️ Project Architecture

  • Phases:
    1. Client: Origin point of raw data.
    2. Connect: Data extraction, transformation, and sending to an endpoint.
    3. Buffer: Queuing system for real-time data streams.
    4. Processing: Data transformation and cleaning.
    5. Storage: Storing processed data in a database.
    6. Visualization: Analyzing and displaying processed data.

🔄 Stream Processing Pipeline

  • Client: Raw data in CSV format, transformed using Python and POSTed to an API.
  • Connect: FASTAPI framework for data validation and transformation.
  • Buffer: Kafka for real-time streaming.
  • Processing: Spark processes raw data from Kafka.
  • Storage: MongoDB stores processed data.
  • Visualization: Streamlit web app for data visualization.

🚧 Project Challenges

  • Handling nested JSON schema and communicating with services.
  • Troubleshooting HTTP 500 errors and ensuring real-time data flow correctness.

🎓 Conclusion

  • Demonstrates end-to-end document streaming and real-time data processing.
  • Key learnings include Kafka, Spark, and MongoDB usage.

🚀 Recommendation

  • Areas for improvement include enhancing project complexity and data quality.
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过模拟信用卡交易的方式构建,涵盖了从2019年1月1日至2020年12月31日的合法与欺诈交易记录。数据集包含1000名客户和800家商户的交易信息,旨在模拟真实世界中的信用卡交易环境。构建过程中,采用了Kaggle上的模拟数据,并通过数据工程管道进行处理,包括数据提取、存储和可视化。此外,利用Kafka进行消息缓冲,Spark进行数据处理,以实现实时数据流和批处理。
使用方法
使用该数据集时,用户可以通过Python脚本将CSV格式的原始数据转换为JSON格式,并通过API进行数据清洗和转换。随后,数据通过Kafka进行缓冲,由Spark进行进一步处理,最终存储在MongoDB中。用户可以通过Streamlit应用进行数据可视化,实现对交易数据的实时监控和分析。此外,数据集的结构化设计使其适用于机器学习模型的训练和评估,特别是在欺诈检测领域。
背景与挑战
背景概述
在金融科技领域,信用卡欺诈检测一直是研究的热点和难点。Simulated Credit Card Fraud Dataset由Kaggle提供,涵盖了2019年1月1日至2020年12月31日的信用卡交易数据,包括1000名客户和800家商户的合法及欺诈交易。该数据集的主要研究人员或机构未明确提及,但其核心研究问题在于通过模拟数据流处理技术,实现从数据提取到存储和可视化的全流程模拟,从而为实时欺诈检测提供数据支持。该数据集的发布对金融科技领域的影响力在于,它为研究人员和工程师提供了一个标准化的数据平台,用于开发和测试信用卡欺诈检测算法,推动了该领域的技术进步。
当前挑战
Simulated Credit Card Fraud Dataset在构建过程中面临多个挑战。首先,处理和转换嵌套的JSON模式是一个主要难题,这要求研究人员具备高超的数据处理技能。其次,确保各服务之间的有效通信,特别是在本地主机与服务名称之间的切换过程中,常常导致HTTP 500错误代码的出现,增加了调试的复杂性。此外,数据的标准化问题,如日期格式的统一,也是构建过程中的一大挑战。最后,确保实时数据流的正确性和完整性,避免数据丢失或错误,是该数据集在实际应用中需要解决的关键问题。
常用场景
经典使用场景
在金融科技领域,Simulated Credit Card Fraud Dataset 数据集的经典使用场景主要集中在实时欺诈检测和数据流处理。该数据集通过模拟2019年至2020年的信用卡交易,涵盖了1000名客户和800家商户的交易记录,包括合法和欺诈交易。通过使用Kafka进行消息缓冲和Spark进行数据处理,研究人员和工程师可以构建实时数据流处理管道,从而实现对信用卡交易数据的实时监控和分析,有效识别潜在的欺诈行为。
解决学术问题
Simulated Credit Card Fraud Dataset 数据集解决了金融科技领域中常见的欺诈检测问题。通过提供丰富的交易数据和详细的欺诈标记,该数据集为学术研究提供了宝贵的资源。研究人员可以利用这些数据开发和验证新的欺诈检测算法,提升模型的准确性和实时性。此外,该数据集还促进了数据工程和流处理技术的研究,推动了相关领域的技术进步。
实际应用
在实际应用中,Simulated Credit Card Fraud Dataset 数据集被广泛用于金融机构的欺诈检测系统。通过模拟真实世界的信用卡交易数据,金融机构可以训练和优化其欺诈检测模型,提高对异常交易的识别能力。此外,该数据集还支持开发定制化的数据可视化工具和报告系统,帮助分析师和决策者更直观地监控交易活动,及时发现和应对潜在的欺诈风险。
数据集最近研究
最新研究方向
在金融科技领域,模拟信用卡欺诈数据集的研究正朝着实时数据流处理和欺诈检测模型的优化方向发展。随着大数据和人工智能技术的融合,研究人员致力于通过实时数据流技术如Kafka和Spark,提升欺诈检测的效率和准确性。此外,结合地理信息系统和用户行为分析,进一步细化欺诈模式识别,成为当前研究的热点。这些研究不仅提升了金融机构的风险管理能力,也为消费者提供了更安全的金融环境。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作