Irish Census Datasets, Insurance Datasets

github2019-05-20 更新2024-05-31 收录

下载链接：

https://github.com/ucd-pel/Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

爱尔兰人口普查数据集包含模拟2011年爱尔兰人口普查数据的聚合统计分布的微观数据，包含社会、经济和人口数据。保险数据集包含个人的社会和人口信息，如年龄、职业、工作地点、最喜欢的娱乐活动及其地点，以及两个分类属性（事故风险和薪资等级）。

The Irish Census dataset comprises microdata that simulates the aggregated statistical distribution of the 2011 Irish Census, encompassing social, economic, and demographic data. The insurance dataset includes individual social and demographic information such as age, occupation, workplace, favorite recreational activities and their locations, along with two categorical attributes (accident risk and salary grade).

创建时间：

2016-04-17

原始信息汇总

数据集概述

1. Irish Census Datasets

来源: Performance Engineering Laboratory, School of Computer Science, University College Dublin
内容: 包含模拟2011年爱尔兰人口普查数据的微观数据，涉及社会、经济和人口统计信息。
生成方法: 使用COCOA数据生成器，详细方法见以下文献：
- Ayala-Rivera, V., Portillo-Dominguez, A., Murphy, L. & Thorpe, C. "COCOA: A Synthetic Data Generator for Testing Anonymization Techniques." Privacy in Statistical Databases Conference, 2016.
- Ayala-Rivera, V., McDonagh, P., Cerqueus, T. & Murphy, L. "A Systematic Comparison and Evaluation of k-Anonymization Algorithms for Practitioners." Transactions on Data Privacy Journal, 2014.
- Ayala-Rivera, V., McDonagh, P., Cerqueus, T. & Murphy, L. "Synthetic Data Generation using Benerator Tool." Technical Report UCD-CSI-2013-03, 2013.

2. Insurance Datasets

来源: Performance Engineering Laboratory, School of Computer Science, University College Dublin
内容: 包含个人社会和人口统计信息的表格数据，包括年龄、职业、工作地点、最喜欢的休闲活动及其地点。此外，还包括两个分类属性：事故风险和薪资等级。

搜集汇总

数据集介绍

构建方式

爱尔兰人口普查数据集与保险数据集，均由都柏林大学计算机科学学院的性能工程实验室构建。其中，爱尔兰人口普查数据集通过模拟2011年爱尔兰人口普查的汇总统计数据分布，生成含有社会、经济和人口学特征的微数据记录。该构建过程遵循特定的方法论，并在相关论文中详述了属性值及数据生成方式。保险数据集则包含了个人的社会和人口学信息，如年龄、职业、工作场所、偏好的娱乐活动及其活动地点，并包含两个分类属性，即事故风险和薪资等级。

使用方法

用户可通过访问指定的GitHub链接，下载这些数据集。使用前，建议仔细阅读相关论文以理解数据集的构建背景和方法。数据集可直接用于匿名化技术的测试、评估及机器学习模型的训练等。在处理和使用这些数据时，应遵循数据保护法规和隐私保护的最佳实践。

背景与挑战

背景概述

Irish Census Datasets与Insurance Datasets是由爱尔兰都柏林大学计算机科学学院的性能工程实验室（Performance Engineering Laboratory, UCD）所创建。其中，Irish Census Datasets是根据2011年爱尔兰人口普查数据生成的微数据集，包含与社会、经济和人口统计相关的记录。这些数据集的创建旨在为测试匿名化技术提供合成数据，已在相关学术研究中得到应用。Insurance Datasets则包含了个人的社会和人口信息，并附加了关于事故风险和薪资类别的分类属性。这些数据集为隐私保护、数据匿名化以及数据挖掘等领域的研究提供了重要的实验资源。

当前挑战

在构建Irish Census Datasets的过程中，研究人员面临的挑战包括如何确保合成数据在保持统计特性的同时，不泄露个人隐私信息。此外， Insurance Datasets的构建挑战在于如何平衡数据的有用性与个人隐私保护之间的界限。在解决领域问题上，这两类数据集都面临着如何在实际应用中有效实现数据匿名化，以及如何准确评估和比较不同的匿名化算法的性能的挑战。

常用场景

经典使用场景

在社会科学与数据隐私研究领域，Irish Census Datasets与Insurance Datasets被广泛用于测试和评估匿名化技术。其微观数据包含了个人的社会、经济及人口统计信息，为研究者提供了一个模仿2011年爱尔兰人口普查数据分布的实验平台，从而能够深入探索数据的匿名化处理及其效果。

解决学术问题

该数据集解决了数据隐私保护中的关键问题，如何在确保数据可用性的同时，有效保护个人信息不被泄露。通过这些数据集，研究者能够评价不同k匿名算法的性能，为实际应用中的数据隐私保护提供理论依据和实践指导。

实际应用

实际应用中，此类数据集可用于保险行业风险评估和薪资分类的模型训练。保险公司可以利用这些数据进行精确的风险评估，优化保险产品设计，同时，政府机构和社会科学家可用其进行人口统计分析，以指导政策制定和社会规划。

数据集最近研究