法国机动车第三方责任数据集

Name: 法国机动车第三方责任数据集
Creator: 拉瓦尔大学精算学院，魁北克，加拿大
Published: 2020-08-14 05:02:44
License: 暂无描述

arXiv2020-08-14 更新2024-06-21 收录

下载链接：

https://github.com/brianmhartman/Anonymizing-Ratemaking-Datasets-using-GANs

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为‘法国机动车第三方责任数据集’，由拉瓦尔大学精算学院创建，包含412,748条记录，涉及一年内法国机动车第三方责任保险政策。数据集包含八个解释变量，包括暴露度、车辆功率、车龄、驾驶员年龄、车辆品牌、燃料类型、地区和密度。该数据集用于测试和比较三种不同类型的生成对抗网络（GANs）在合成保险数据方面的能力，旨在解决保险数据因隐私问题难以公开的问题，通过生成不含敏感信息但结构与原始数据相似的合成数据。

This dataset is named 'French Motor Third-Party Liability Dataset', and was created by the Faculty of Actuarial Science at Laval University. It comprises 412,748 records related to French motor third-party liability insurance policies over a one-year period. The dataset includes eight explanatory variables, namely exposure, vehicle power, vehicle age, driver age, vehicle brand, fuel type, region, and density. This dataset is used to test and compare the capabilities of three distinct types of Generative Adversarial Networks (GANs) in synthesizing insurance data. It aims to resolve the issue that insurance data is difficult to publicly release due to privacy concerns, by generating synthetic data that contains no sensitive information but retains the same structural characteristics as the original dataset.

提供机构：

拉瓦尔大学精算学院，魁北克，加拿大

创建时间：

2020-08-14

搜集汇总

数据集介绍

构建方式

法国机动车第三方责任数据集的构建采用了生成对抗网络（GAN）技术，旨在通过合成数据解决保险数据因隐私问题难以共享的困境。研究团队设计了三种不同类型的GAN架构：多分类Wasserstein GAN（MC-WGAN-GP）、条件表格GAN（CTGAN）以及混合数值与分类差分隐私GAN（MNCDP-GAN）。这些模型通过对原始数据进行学习，生成具有相同结构和多元关系但无敏感信息的合成数据。具体而言，MC-WGAN-GP通过梯度惩罚优化Wasserstein距离，CTGAN通过条件生成模拟表格数据，而MNCDP-GAN则结合自编码器和差分隐私技术，确保生成数据的隐私性。

特点

该数据集的特点在于其高度结构化的保险数据特征，包含多个分类变量和数值变量，如车辆功率、车龄、驾驶员年龄、品牌、燃料类型等。生成的数据集不仅保留了原始数据的多元关系，还通过GAN技术确保了数据的隐私性。MC-WGAN-GP在数据结构的还原上表现最佳，CTGAN则因其易用性受到青睐，而MNCDP-GAN通过差分隐私技术提供了更强的隐私保护，尽管其生成数据的质量相对较低。数据集还特别关注了保险数据中的暴露变量（Exposure），确保其分布与真实数据一致。

使用方法

该数据集的使用方法主要包括数据生成、模型训练和隐私保护评估。首先，用户可以通过MC-WGAN-GP、CTGAN或MNCDP-GAN生成合成数据，用于保险定价、损失预测等精算模型的开发。其次，生成的数据可用于训练和验证预测模型，如泊松回归模型，以评估其与真实数据的拟合度。最后，MNCDP-GAN生成的差分隐私数据可用于隐私保护研究，确保数据共享时不会泄露敏感信息。所有代码和模型参数均公开在GitHub上，便于用户复现和扩展研究。

背景与挑战

背景概述

法国机动车第三方责任数据集（French Motor Third-Party Liability Dataset）是一个公开的保险数据集，主要用于精算科学中的方法开发与测试。该数据集由Dutang和Charpentier于2019年发布，包含412,748条法国机动车第三方责任保险政策的记录，涵盖了多个解释变量，如车辆功率、车龄、驾驶员年龄、品牌、燃料类型、地区及人口密度等。由于保险数据的高度敏感性，公开的保险数据集极为稀缺，这限制了精算科学领域的方法论发展。该数据集的发布为研究人员提供了一个宝贵的资源，用于开发和验证新的精算模型，尤其是在个体索赔预测和费率制定方面。

当前挑战

法国机动车第三方责任数据集在构建和使用过程中面临多重挑战。首先，保险数据的敏感性使得数据的公开和共享极为困难，这限制了研究人员对数据的访问和使用。其次，保险数据通常包含大量的分类变量和复杂的多变量关系，如何准确建模这些关系是一个技术难题。在数据生成过程中，研究人员采用了多种生成对抗网络（GAN）架构，如MC-WGAN-GP、CTGAN和MNCDP-GAN，以生成合成数据。然而，这些方法在保持数据隐私的同时，仍需确保生成数据的统计特性与原始数据一致。此外，如何在生成数据中保留多变量关系，尤其是索赔频率与解释变量之间的关系，是另一个重要挑战。最后，如何在生成数据中引入差分隐私保护，同时不显著降低数据的实用性，也是一个亟待解决的问题。

常用场景

经典使用场景

法国机动车第三方责任数据集在精算科学领域中被广泛用于开发和测试保险定价和损失准备金模型。该数据集包含了大量法国机动车保险政策的详细信息，如车辆功率、车龄、驾驶员年龄、品牌、燃料类型等变量。这些数据为研究人员提供了一个真实的、多维度的保险数据环境，使得他们能够在模拟环境中验证和改进精算模型。

衍生相关工作

该数据集衍生了许多相关研究，特别是在生成对抗网络（GANs）在精算科学中的应用。例如，MC-WGAN-GP、CTGAN和MNCDP-GAN等模型都是基于该数据集开发的。这些模型不仅能够生成高质量的合成数据，还能够在不同隐私保护水平下进行数据生成，为精算科学和保险行业提供了新的研究工具和方法。

数据集最近研究