Insurance Dataset|保险数据集|健康分析数据集
收藏Insurance Dataset SQL Project
数据集概述
项目简介
本项目探索了一个包含人口统计和健康相关数据的保险数据集,包括年龄、性别、BMI(身体质量指数)、血压、吸烟习惯等。通过使用SQL分析该数据集,我们可以获得关于各种因素如何影响保险索赔的有价值的见解。
项目目的
- 分析保险索赔数据和人口统计模式。
- 提供关于影响保险索赔的风险因素的见解,如健康状况和吸烟状态。
- 帮助初学者、中级和高级学习者使用真实世界的数据练习他们的SQL技能。
列描述
- PatientID: 每个患者的唯一标识符。
- Age: 患者的年龄。
- Gender: 患者的性别(男/女)。
- BMI: 患者的身体质量指数。
- BloodPressure: 患者的血压。
- Diabetic: 患者是否患有糖尿病(是/否)。
- Children: 患者拥有的孩子数量。
- Smoker: 患者是否吸烟(是/否)。
- Region: 患者居住的地理区域。
- Claim: 保险索赔金额。
SQL查询示例
初学者级别问题
- 选择所有列:从数据集中检索所有列。
- 唯一区域:检索唯一区域的列表。
- 患者总数:查找患者总数。
- 吸烟者总数:获取吸烟者的总数。
- 糖尿病患者:检索糖尿病患者的患者ID和索赔。
- 孩子总数:计算所有患者的孩子总数。
- 男性患者:查找所有男性患者。
- BMI > 25的患者:选择BMI大于25的患者的所有列。
- 平均年龄:获取所有患者的平均年龄。
- 西南区域的患者:查找来自Southwest区域的患者总数。
中级级别问题
- 吸烟者的总保险索赔:计算吸烟者的总保险索赔。
- 糖尿病患者的平均血压:检索糖尿病患者的平均血压。
- 有两个以上孩子的女性患者:查找有两个以上孩子的女性患者的总数。
- 最高索赔金额:获取任何患者的最高索赔金额。
- 年龄超过40岁、BMI > 30且吸烟的患者:列出年龄超过40岁、BMI大于30且吸烟的患者。
- 每个区域的患者数量:检索每个区域的患者数量。
- 非糖尿病患者的最低索赔金额:查找非糖尿病患者的最低索赔金额。
- 东北区域的总索赔金额:计算来自Northeast区域的患者总保险索赔金额。
- 索赔金额 > 10,000且有两个以上孩子的患者:列出索赔金额大于10,000且有两个以上孩子的所有患者。
- 每个区域的糖尿病患者:检索每个区域的糖尿病患者数量。
高级级别问题
- 按性别和吸烟状态分组的保险索赔总额:计算按性别和吸烟状态分组的患者的总保险索赔。
- 吸烟者平均索赔最高的三个区域:查找吸烟者平均索赔最高的三个区域。
- 50岁以上且血压高于平均水平的糖尿病患者:识别50岁以上且血压高于平均水平的糖尿病患者。
- 索赔最高的5名患者:查找索赔最高的5名患者。
- 每个区域的吸烟者百分比:计算每个区域的吸烟者百分比。
- 至少有两个孩子的患者的平均索赔(按区域分组):检索至少有两个孩子的患者的平均索赔,按区域分组。
- 按吸烟状态和区域分组的糖尿病患者的平均索赔:查找按吸烟状态和区域分组的糖尿病患者的平均索赔金额。
- 每个区域索赔最高的5名患者:列出每个区域索赔最高的5名患者。
- 每个区域的保险索赔方差:计算每个区域的保险索赔方差。
- 每个区域50岁以上吸烟者的最高索赔金额:查找每个区域50岁以上吸烟者的最高索赔金额。
CampusX问题
- 西南区域的男性患者:显示来自Southwest区域的男性患者的记录。
- BMI在30到45之间的患者:显示BMI在30到45之间的所有患者记录。
- 吸烟的糖尿病患者的最低和最高血压:显示吸烟的糖尿病患者的最低和最高血压,列名分别为MinBP和MaxBP。
- 非西南区域的患者:查找非Southwest区域的唯一患者数量。
- 男性吸烟者的总索赔金额:计算男性吸烟者的总索赔金额。
- 南部区域的所有记录:选择南部区域的所有患者记录。
- 血压正常的患者:查找血压在正常范围内的患者数量(范围:90-120)。
- 17岁以下且血压正常的患者:查找17岁以下且血压在正常范围内的患者数量。
- 不吸烟的糖尿病女性的平均索赔金额:计算不吸烟的糖尿病女性的平均索赔金额。
- 更新PatientID为1234的患者的索赔金额:将PatientID为1234的患者的索赔金额更新为5000。
- 删除没有孩子的吸烟者记录:删除所有没有孩子的吸烟者记录。

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
38-Cloud
该数据集包含38幅Landsat 8场景图像及其手动提取的像素级云检测地面实况。数据集被分割成多个384*384的补丁,适合深度学习语义分割算法。训练集有8400个补丁,测试集有9201个补丁。每个补丁包含4个对应的谱通道:红色、绿色、蓝色和近红外。
github 收录
TT100K - Tsinghua-Tencent 100K
TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。
cg.cs.tsinghua.edu.cn 收录
CBIS-DDSM
该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。
github 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录