Suspicion Machines Sweden Dataset

github2024-11-25 更新2024-12-16 收录

下载链接：

https://github.com/Lighthouse-Reports/suspicion_machines_sweden

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含6,129个案例，这些案例是关于瑞典社会保险公司（Forsakringskassan）用于选择申请人进行欺诈调查的模型。数据集涉及2017年选择的申请人，以及调查结果，即在申请人的福利申请中是否发现了错误。其中，1,047个案例是随机选择的，5,082个案例是通过机器学习模型选择的。

This dataset comprises 6,129 cases associated with the model deployed by the Swedish social insurance agency Forsakringskassan to select applicants for fraud investigations. It includes applicants selected in 2017, along with the corresponding investigation results, namely whether errors were identified in the applicants' benefit claims. Of these cases, 1,047 were randomly selected, while 5,082 were selected using machine learning models.

创建时间：

2024-11-25

原始信息汇总

Suspicion Machines Sweden 数据集

数据集概述

该数据集与Lighthouse Reports和Svenske Dagbladet对瑞典福利系统中部署的AI风险评估的调查相关。数据集包含瑞典社会保险局（Forsakringskassan）在2024年部署的模型用于选择申请人进行欺诈调查的结果数据。

数据内容

数据来源: 瑞典社会保险局（Forsakringskassan）
数据类型: 申请人欺诈调查结果
数据规模: 6,129个案例
数据时间范围: 2017年
数据描述:
- 数据集涉及瑞典临时父母津贴福利计划的申请人。
- 6,129个案例中，1,047个是随机选择的，5,082个是由机器学习模型选择的。
- 数据包含调查结果，即在受益人的申请中是否发现了错误。

数据分析

公平性测试: 数据集根据学术文献中概述的多个公平性定义进行了测试。
内部公平性程序: 数据集还根据该机构开发的内部公平性程序进行了测试。

数据文件

数据集文件: data/data_english.xlsx
分析笔记本:
- sweden_algo_fairness.ipynb
- sweden_sia_fairness.ipynb

相关工具

实用函数和类: 包括定义ConfusionMatrix对象和概率引导程序的类，位于util文件夹中。

搜集汇总

数据集介绍

构建方式

Suspicion Machines Sweden Dataset 的构建基于瑞典社会保险公司（Forsakringskassan）在2024年提供的数据，这些数据涉及用于选择欺诈调查申请人的机器学习模型。该数据集包含了2017年针对瑞典临时父母津贴计划受益人的调查结果，涵盖了6,129个案例，其中1,047个案例是随机选择的，而5,082个案例则是通过机器学习模型筛选的。数据集详细记录了每个案例的调查结果，即是否在申请中发现了错误。

特点

该数据集的显著特点在于其结合了随机选择和机器学习模型选择的两类案例，提供了对比分析的可能性。此外，数据集还经过了多种公平性定义的测试，包括学术文献中的公平性标准以及瑞典社会保险公司内部开发的公平性程序。这些测试结果进一步增强了数据集的透明度和可信度，使其成为研究算法公平性和社会福利系统中AI应用风险的重要资源。

使用方法

使用Suspicion Machines Sweden Dataset时，研究者可以通过提供的Jupyter笔记本进行数据分析，这些笔记本包含了针对数据集的公平性测试代码。数据集文件以Excel格式提供，便于直接导入和处理。研究者可以利用数据集中的混淆矩阵对象和概率引导程序等工具，进行深入的统计分析和模型评估。此外，数据集还支持对AI模型在社会福利系统中应用的公平性和有效性进行多角度探讨。

背景与挑战

背景概述

Suspicion Machines Sweden Dataset 是由Lighthouse Reports和Svenske Dagbladet于2024年共同发布的，旨在揭示瑞典福利系统中AI风险评估模型的应用情况。该数据集源自瑞典社会保险局（Forsakringskassan）部署的一个模型，用于筛选申请欺诈调查的申请人。具体而言，该模型用于评估瑞典临时父母津贴计划的申请人，该计划为因照顾生病子女而请假的父母提供补偿。数据集包含了2017年6,129名被选中进行调查的个案及其调查结果，其中1,047个案例是随机选择的，而5,082个案例则是由机器学习模型筛选的。该数据集的发布不仅揭示了AI模型在福利系统中的应用，还为学术界提供了研究公平性和透明度的重要资源。

当前挑战

Suspicion Machines Sweden Dataset 面临的挑战主要集中在公平性和透明度方面。首先，数据集的构建过程中，如何确保机器学习模型在筛选申请人时不会引入偏见或歧视，是一个重要的挑战。其次，该数据集的分析需要遵循学术文献中定义的多种公平性标准，这要求研究人员具备高度的专业知识和技能。此外，数据集的透明度也是一个关键问题，如何确保模型的决策过程对公众和政策制定者透明，以便进行有效的监督和改进。最后，数据集的使用还涉及到隐私保护和数据安全的问题，如何在确保数据分析的同时保护个人隐私，是另一个亟待解决的挑战。

常用场景

经典使用场景

Suspicion Machines Sweden Dataset 主要用于评估和分析瑞典社会福利系统中AI风险评估模型的公平性和有效性。该数据集包含了2017年瑞典社会保险机构（Forsakringskassan）用于选择申请者进行欺诈调查的模型结果。通过对比随机选择和机器学习模型选择的结果，研究者可以深入探讨AI模型在福利分配中的应用效果，特别是在临时父母津贴方案中的应用。

解决学术问题

该数据集解决了在社会福利系统中AI模型公平性和透明度的重要学术问题。通过分析模型选择与随机选择的结果差异，研究者能够评估AI模型在欺诈检测中的偏见和误差，进而为公平算法的设计提供实证依据。这对于推动AI在社会福利领域的公正应用具有重要意义，有助于减少潜在的社会不平等和歧视现象。

衍生相关工作

基于Suspicion Machines Sweden Dataset，研究者们开展了多项相关工作，包括对AI模型公平性的深入分析、不同公平定义的比较研究以及内部公平程序的验证。这些工作不仅丰富了AI公平性研究的理论框架，还为其他国家和地区的福利系统提供了可借鉴的经验。此外，该数据集还激发了对AI在社会福利领域应用的广泛讨论，推动了相关政策的制定和完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集