Vehicle Claim

github2022-12-24 更新2024-05-31 收录

下载链接：

https://github.com/ajaychawda58/UADAD

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过DVI数据集创建的合成数据，用于车辆索赔审计。包含车辆的品牌、型号、颜色、注册年份、车身类型、行驶里程、引擎大小、变速箱类型、燃料类型、价格、座位数、车门数、损坏类型、具体损坏、修复复杂度、修复小时数和修复成本等属性。

This dataset is synthetic data created from the DVI dataset, intended for vehicle claim audits. It includes attributes such as vehicle brand, model, color, registration year, body type, mileage, engine size, transmission type, fuel type, price, number of seats, number of doors, type of damage, specific damage, repair complexity, repair hours, and repair cost.

创建时间：

2022-09-26

原始信息汇总

数据集概述

数据集列表

Vehicle Claim - 合成数据集，使用DVI数据集创建。
Car Insurance - 来自Kaggle的数据集，链接：Car Insurance。
Vehicle Insurance - 来自Github的数据集，链接：Vehicle Insurance。

Vehicle Claim数据集详情

创建代码：创建数据集的代码。
数据集存储位置：数据集存储位置。
属性列表：
- Maker - 分类变量，车辆品牌。
- GenModel - 分类变量，车辆型号。
- Color - 分类变量，车辆颜色。
- Reg_Year - 分类变量，注册年份。
- Body_Type - 分类变量，如SUV, Convertible。
- Runned_Miles - 数值变量，车辆行驶里程。
- Engin_Size - 分类变量，引擎大小。
- GearBox - 分类变量，自动或手动。
- FuelType - 分类变量，汽油或柴油。
- Price - 数值变量，车辆价格。
- Seat_num - 数值变量，座位数。
- Door_num - 数值变量，车门数。
- issue - 分类变量，损坏类型。
- issue_id - 分类变量，具体损坏。
- repair_complexity - 分类变量，修复难度。
- repair_hours - 数值变量，修复所需时间。
- repair_cost - 数值变量，修复成本。

训练与评估参数

训练参数：
- dataset - 训练数据集选择（vehicle_claims, car_insurance, vehicle_insurance）。
- data - 数据类型（正常数据或混合数据）。
- encoding - 分类特征编码方式。
- numerical - 是否仅使用数值特征。
- batch_size - 批量大小。
- epoch - 训练周期数。
- latent_dim - 潜在空间维度。
评估参数：
- threshold - 评估阈值。

引用信息

论文引用：

@article{ Author = {Ajay Chawda and Stefanie Grimm and Marius Kloft}, Title = {Unsupervised Anomaly detection for Auditing Data and Impact of Cetgorical Encodings}, Journal = {https://arxiv.org/abs/2210.14056}, Year = {2022}, }

搜集汇总

数据集介绍

构建方式

Vehicle Claim数据集是基于DVI数据集生成的合成数据集，旨在为无监督异常检测任务提供支持。数据集的构建过程通过公开的代码实现，涵盖了车辆品牌、型号、颜色、注册年份、车身类型、行驶里程、发动机尺寸、变速箱类型、燃油类型、价格、座位数、车门数、损坏类型、具体损坏、修复复杂度、修复时间和修复成本等多个特征。此外，数据集还引入了`breakdown_date`和`repair_date`字段，用于基于修复天数插入异常数据。

特点

Vehicle Claim数据集的特点在于其丰富的多维度特征，涵盖了车辆的基本信息、损坏情况以及修复相关的详细信息。数据集不仅包含数值型特征，如行驶里程、修复时间和修复成本，还包含大量类别型特征，如车辆品牌、型号和损坏类型等。这些特征为研究无监督异常检测算法提供了多样化的数据基础。此外，数据集的合成性质使其能够灵活地模拟真实场景中的异常情况，为算法验证提供了可靠的环境。

使用方法

Vehicle Claim数据集的使用方法主要通过Python脚本实现，支持多种无监督异常检测模型的训练与评估，包括DAGMM、SOM-DAGMM和RSRAE等。用户可以通过命令行参数灵活配置数据集、特征编码方式、模型参数等。训练脚本支持选择仅使用正常数据或混合数据，并可选择是否仅使用数值型特征。评估脚本则允许用户设置异常检测的阈值，以优化模型性能。此外，数据集还支持自组织映射（SOM）模型的训练与评估，进一步扩展了其应用场景。

背景与挑战

背景概述

Vehicle Claim数据集由Ajay Chawda等人于2022年创建，旨在通过无监督异常检测技术审计车辆索赔数据。该数据集基于DVI数据集生成，涵盖了车辆品牌、型号、颜色、注册年份、车身类型、行驶里程、发动机尺寸、变速箱类型、燃料类型、价格、座位数、车门数、损坏类型、具体损坏、修复复杂度、修复时间和修复成本等多个特征。该数据集的研究成果已在NeurIPS 2022的Synthetic Data for Empowering ML Research研讨会上发表，为车辆保险领域的异常检测提供了新的研究视角和方法。

当前挑战

Vehicle Claim数据集在解决车辆保险领域的异常检测问题时，面临的主要挑战包括：1) 数据的高维性和类别特征的多样性，如何有效编码和处理这些类别特征以提升模型性能；2) 异常检测的无监督学习范式，如何在缺乏标签数据的情况下准确识别异常模式；3) 数据生成过程中如何确保合成数据的真实性和代表性，以反映实际车辆索赔场景。此外，构建过程中还需克服数据不平衡、特征冗余以及模型训练中的计算复杂度等问题。

常用场景

经典使用场景

Vehicle Claim数据集在无监督异常检测领域具有广泛的应用，尤其是在车辆保险索赔数据的审计与分析中。该数据集通过模拟真实的车辆索赔场景，提供了丰富的车辆属性和维修信息，使得研究人员能够在无标签数据的情况下，利用DAGMM、SOM-DAGMM和RSRAE等模型进行异常检测。这种无监督学习方法能够有效识别出数据中的异常模式，为保险公司的欺诈检测提供了强有力的支持。

衍生相关工作

Vehicle Claim数据集衍生了一系列经典研究工作，特别是在无监督异常检测领域。基于该数据集，研究人员提出了多种改进模型，如RSRAE（Robust Subspace Recovery Autoencoder）和SOM-DAGMM（Self-Organizing Map Deep Autoencoding Gaussian Mixture Model）。这些模型在异常检测任务中表现出色，进一步推动了无监督学习在复杂数据场景中的应用。此外，该数据集还为NeuTraL-AD和LOE等新兴异常检测方法提供了基准测试平台，促进了相关领域的技术进步。

数据集最近研究