mabilton/fremtpl2
收藏Hugging Face2024-11-17 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/mabilton/fremtpl2
下载链接
链接失效反馈官方服务:
资源简介:
freMTPL2数据集是法国第三方责任(TPL)汽车保险政策及其索赔数据的镜像,最初由Arthur Charpentier发布,以配合他的教科书《Computational Actuarial Science with R》。该数据集包含两个CSV文件:freMTPL2freq.csv(频率数据集)和freMTPL2sev.csv(严重性数据集)。freMTPL2freq.csv包含678,013条TPL汽车保险政策的数据,每行代表一个单独的政策,包含政策ID、索赔次数、暴露期、车辆功率、车辆年龄、驾驶员年龄、奖金-罚金因子、车辆品牌、燃料类型、地区人口密度类别、密度和地区等信息。freMTPL2sev.csv包含26,639条针对freMTPL2freq.csv中政策的索赔数据,每行代表一个单独的索赔,包含政策ID和索赔金额。两个文件之间存在一对多的关系,即每个索赔对应一个政策,但一个政策可以对应多个索赔。数据集中存在一些不一致性,如缺少政策记录和索赔次数不匹配的问题。
The freMTPL2 dataset is a mirror of the French Third-Party Liability (TPL) Motor insurance policies and claims data, originally published by Arthur Charpentier to accompany his textbook Computational Actuarial Science with R. The dataset consists of two CSV files: freMTPL2freq.csv (Frequency dataset) and freMTPL2sev.csv (Severity dataset). freMTPL2freq.csv contains data on 678,013 TPL motor insurance policies, with each row representing a single policy and including columns such as policy ID, number of claims, exposure period, vehicle power, vehicle age, driver age, Bonus-Malus factor, vehicle brand, fuel type, area population density category, density, and region. freMTPL2sev.csv contains data on 26,639 claims made against the policies in freMTPL2freq.csv, with each row representing a single claim and including columns such as policy ID and claim amount. There is a one-to-many relationship between the two files, meaning each claim corresponds to one policy, but one policy can correspond to multiple claims. The dataset has some inconsistencies, such as missing policy records and discrepancies in the number of claims.
提供机构:
mabilton
搜集汇总
数据集介绍

构建方式
在精算科学领域,数据集的构建往往依托于实际保险业务记录,以支撑风险建模与定价分析。freMTPL2数据集源自法国机动车第三方责任保险业务,其构建过程基于真实保单与索赔数据,涵盖超过一年的观测周期。数据集以两个独立的CSV文件组织:freMTPL2freq.csv记录了678,013份保单的风险属性,包括车辆功率、驾驶员年龄、区域密度等变量;freMTPL2sev.csv则存储了26,639条索赔金额信息。两者通过保单ID关联,形成一对多的关系,完整呈现了保险事件的发生频率与损失严重程度。
使用方法
在应用该数据集时,研究者可将其用于频率-严重性模型的构建,这是非寿险精算中的核心方法。首先,通过freMTPL2freq.csv分析索赔发生频率,利用广义线性模型或机器学习算法预测风险;其次,结合freMTPL2sev.csv评估损失严重程度,通常采用伽马或对数正态分布进行建模。数据集支持保单级别的关联分析,但需注意数据不一致性问题,建议在预处理阶段进行数据清洗与验证。此外,该数据集适用于教学与科研,可帮助学习者掌握精算计算的实际应用,并推动保险风险定价的创新研究。
背景与挑战
背景概述
在精算科学领域,保险索赔数据的建模与分析是风险定价与准备金评估的核心基础。freMTPL2数据集由法国精算师Arthur Charpentier于2020年发布,旨在支持其著作《Computational Actuarial Science with R》中的实证研究。该数据集聚焦于法国机动车第三方责任保险,记录了超过67万份保单及其关联的索赔事件,涵盖车辆属性、驾驶员特征及区域人口密度等多维风险因子。其发布为精算建模提供了标准化基准,推动了广义线性模型与机器学习方法在非寿险定价中的融合应用,显著提升了该领域研究的可复现性与方法创新。
当前挑战
该数据集旨在解决机动车保险中的索赔频率与索赔强度建模问题,其核心挑战在于处理高度不平衡的索赔分布,约96%的保单无索赔记录,导致模型易受零膨胀数据影响。构建过程中,数据集存在显著的数据不一致性:部分索赔记录缺失对应保单信息,影响风险属性的完整性;同时,保单中记录的索赔数量与实际索赔文件存在偏差,涉及近万条记录,这类不一致性虽被保留以维持原始数据真实性,却为模型验证与参数估计带来了额外复杂性。
常用场景
经典使用场景
在精算科学与保险风险建模领域,freMTPL2数据集作为法国机动车第三方责任保险的经典基准,常被用于构建和验证索赔频率与索赔强度的统计模型。研究者通过整合保单特征(如车辆功率、驾驶员年龄、区域密度)与索赔记录,能够深入分析风险因子的非线性效应与交互作用,为精算定价和准备金评估提供实证基础。
解决学术问题
该数据集有效解决了保险经济学中关于风险异质性建模与索赔预测的若干核心问题。通过提供大规模的真实保单与索赔数据,它支持学者探索传统广义线性模型(GLM)的局限性,并推动机器学习方法在精算领域的应用,从而提升风险分类的准确性与保费厘定的公平性。
实际应用
在实际保险业务中,freMTPL2数据集为保险公司优化定价策略与风险管理提供了关键参考。基于其构建的预测模型能够帮助识别高风险保单组合,实现动态保费调整,并辅助监管机构评估行业整体风险暴露,提升法国乃至欧洲机动车保险市场的运营效率与稳定性。
数据集最近研究
最新研究方向
在精算科学与保险金融领域,freMTPL2数据集作为法国机动车第三方责任险的经典基准,正推动着前沿研究向更复杂的风险建模方向演进。当前研究焦点集中于利用机器学习与深度学习技术,如梯度提升树和神经网络,对索赔频率与严重性进行联合建模,以提升保费定价的精准度。同时,学者们积极探索可解释人工智能方法,旨在解析模型预测中的关键风险因子,如车辆功率、驾驶员年龄及区域密度,从而增强模型在监管合规与业务决策中的透明度。该数据集还常被用于评估处理不平衡数据与数据不一致性的新算法,这些挑战恰恰反映了现实保险数据的复杂性,对推动精算科学的数字化变革具有深远意义。
以上内容由遇见数据集搜集并总结生成



