five

Vehicle Claim|车辆索赔数据集|审计分析数据集

收藏
github2022-12-24 更新2024-05-31 收录
车辆索赔
审计分析
下载链接:
https://github.com/ajaychawda58/UADAD
下载链接
链接失效反馈
资源简介:
该数据集是通过DVI数据集创建的合成数据,用于车辆索赔审计。包含车辆的品牌、型号、颜色、注册年份、车身类型、行驶里程、引擎大小、变速箱类型、燃料类型、价格、座位数、车门数、损坏类型、具体损坏、修复复杂度、修复小时数和修复成本等属性。

This dataset is synthetic data created from the DVI dataset, intended for vehicle claim audits. It includes attributes such as vehicle brand, model, color, registration year, body type, mileage, engine size, transmission type, fuel type, price, number of seats, number of doors, type of damage, specific damage, repair complexity, repair hours, and repair cost.
创建时间:
2022-09-26
原始信息汇总

数据集概述

数据集列表

  1. Vehicle Claim - 合成数据集,使用DVI数据集创建。
  2. Car Insurance - 来自Kaggle的数据集,链接:Car Insurance
  3. Vehicle Insurance - 来自Github的数据集,链接:Vehicle Insurance

Vehicle Claim数据集详情

  • 创建代码创建数据集的代码
  • 数据集存储位置数据集存储位置
  • 属性列表
    • Maker - 分类变量,车辆品牌。
    • GenModel - 分类变量,车辆型号。
    • Color - 分类变量,车辆颜色。
    • Reg_Year - 分类变量,注册年份。
    • Body_Type - 分类变量,如SUV, Convertible。
    • Runned_Miles - 数值变量,车辆行驶里程。
    • Engin_Size - 分类变量,引擎大小。
    • GearBox - 分类变量,自动或手动。
    • FuelType - 分类变量,汽油或柴油。
    • Price - 数值变量,车辆价格。
    • Seat_num - 数值变量,座位数。
    • Door_num - 数值变量,车门数。
    • issue - 分类变量,损坏类型。
    • issue_id - 分类变量,具体损坏。
    • repair_complexity - 分类变量,修复难度。
    • repair_hours - 数值变量,修复所需时间。
    • repair_cost - 数值变量,修复成本。

训练与评估参数

  • 训练参数
    • dataset - 训练数据集选择(vehicle_claims, car_insurance, vehicle_insurance)。
    • data - 数据类型(正常数据或混合数据)。
    • encoding - 分类特征编码方式。
    • numerical - 是否仅使用数值特征。
    • batch_size - 批量大小。
    • epoch - 训练周期数。
    • latent_dim - 潜在空间维度。
  • 评估参数
    • threshold - 评估阈值。

引用信息

  • 论文引用

@article{ Author = {Ajay Chawda and Stefanie Grimm and Marius Kloft}, Title = {Unsupervised Anomaly detection for Auditing Data and Impact of Cetgorical Encodings}, Journal = {https://arxiv.org/abs/2210.14056}, Year = {2022}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Vehicle Claim数据集是基于DVI数据集生成的合成数据集,旨在为无监督异常检测任务提供支持。数据集的构建过程通过公开的代码实现,涵盖了车辆品牌、型号、颜色、注册年份、车身类型、行驶里程、发动机尺寸、变速箱类型、燃油类型、价格、座位数、车门数、损坏类型、具体损坏、修复复杂度、修复时间和修复成本等多个特征。此外,数据集还引入了`breakdown_date`和`repair_date`字段,用于基于修复天数插入异常数据。
特点
Vehicle Claim数据集的特点在于其丰富的多维度特征,涵盖了车辆的基本信息、损坏情况以及修复相关的详细信息。数据集不仅包含数值型特征,如行驶里程、修复时间和修复成本,还包含大量类别型特征,如车辆品牌、型号和损坏类型等。这些特征为研究无监督异常检测算法提供了多样化的数据基础。此外,数据集的合成性质使其能够灵活地模拟真实场景中的异常情况,为算法验证提供了可靠的环境。
使用方法
Vehicle Claim数据集的使用方法主要通过Python脚本实现,支持多种无监督异常检测模型的训练与评估,包括DAGMM、SOM-DAGMM和RSRAE等。用户可以通过命令行参数灵活配置数据集、特征编码方式、模型参数等。训练脚本支持选择仅使用正常数据或混合数据,并可选择是否仅使用数值型特征。评估脚本则允许用户设置异常检测的阈值,以优化模型性能。此外,数据集还支持自组织映射(SOM)模型的训练与评估,进一步扩展了其应用场景。
背景与挑战
背景概述
Vehicle Claim数据集由Ajay Chawda等人于2022年创建,旨在通过无监督异常检测技术审计车辆索赔数据。该数据集基于DVI数据集生成,涵盖了车辆品牌、型号、颜色、注册年份、车身类型、行驶里程、发动机尺寸、变速箱类型、燃料类型、价格、座位数、车门数、损坏类型、具体损坏、修复复杂度、修复时间和修复成本等多个特征。该数据集的研究成果已在NeurIPS 2022的Synthetic Data for Empowering ML Research研讨会上发表,为车辆保险领域的异常检测提供了新的研究视角和方法。
当前挑战
Vehicle Claim数据集在解决车辆保险领域的异常检测问题时,面临的主要挑战包括:1) 数据的高维性和类别特征的多样性,如何有效编码和处理这些类别特征以提升模型性能;2) 异常检测的无监督学习范式,如何在缺乏标签数据的情况下准确识别异常模式;3) 数据生成过程中如何确保合成数据的真实性和代表性,以反映实际车辆索赔场景。此外,构建过程中还需克服数据不平衡、特征冗余以及模型训练中的计算复杂度等问题。
常用场景
经典使用场景
Vehicle Claim数据集在无监督异常检测领域具有广泛的应用,尤其是在车辆保险索赔数据的审计与分析中。该数据集通过模拟真实的车辆索赔场景,提供了丰富的车辆属性和维修信息,使得研究人员能够在无标签数据的情况下,利用DAGMM、SOM-DAGMM和RSRAE等模型进行异常检测。这种无监督学习方法能够有效识别出数据中的异常模式,为保险公司的欺诈检测提供了强有力的支持。
衍生相关工作
Vehicle Claim数据集衍生了一系列经典研究工作,特别是在无监督异常检测领域。基于该数据集,研究人员提出了多种改进模型,如RSRAE(Robust Subspace Recovery Autoencoder)和SOM-DAGMM(Self-Organizing Map Deep Autoencoding Gaussian Mixture Model)。这些模型在异常检测任务中表现出色,进一步推动了无监督学习在复杂数据场景中的应用。此外,该数据集还为NeuTraL-AD和LOE等新兴异常检测方法提供了基准测试平台,促进了相关领域的技术进步。
数据集最近研究
最新研究方向
在车辆保险索赔领域,异常检测技术的研究正逐渐成为热点。Vehicle Claim数据集作为NeurIPS 2022研讨会的一部分,展示了无监督异常检测在审计数据中的应用及其对分类编码的影响。该数据集通过合成方法生成,结合了多种车辆属性,如品牌、型号、颜色等,以及维修复杂性和成本等关键指标,为研究者提供了一个丰富的实验平台。最新的研究方向集中在如何通过改进的编码策略和深度学习模型,如DAGMM、SOM-DAGMM和RSRAE,来提高异常检测的准确性和效率。这些研究不仅推动了保险行业的欺诈检测技术,也为其他领域的异常检测提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录

ST-EVCDP

这是一个关于公共电动汽车充电桩的时空充电需求预测的实际数据集,涵盖了18,061个公共充电桩的数据,包括坐标、充电器数量、占用情况和价格等信息。数据集用于学术研究,支持区域电动汽车充电需求预测。

github 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录