five

Adult Dataset

收藏
arXiv2024-12-25 更新2024-12-26 收录
下载链接:
http://arxiv.org/abs/2412.18522v1
下载链接
链接失效反馈
官方服务:
资源简介:
Adult Dataset是一个包含人口统计信息的数据集,常用于关联规则挖掘研究。该数据集由多个规则集实例组成,每个实例包含不同数量的规则和元素。数据集的主要应用领域包括电子商务、生物学、网络安全和健康等领域,旨在通过关联规则挖掘提供数据洞察。论文中提出的SHARQ框架通过Shapley值量化元素对规则集的贡献,解决了传统方法难以解释元素相对重要性的问题。

The Adult Dataset is a dataset containing demographic information, which is widely utilized in association rule mining research. It comprises multiple rule set instances, with each instance containing a variable number of rules and elements. This dataset is applied across multiple domains including e-commerce, biology, cybersecurity, healthcare and other fields, with the core objective of deriving data insights through association rule mining. The SHARQ framework proposed in the paper quantifies the contribution of elements to rule sets via Shapley Values, addressing the challenge that traditional methods struggle to interpret the relative importance of elements.
提供机构:
巴伊兰大学, 宾夕法尼亚大学
创建时间:
2024-12-25
搜集汇总
数据集介绍
main_image_url
构建方式
Adult数据集是一个广泛用于数据挖掘和机器学习研究的数据集,主要包含人口统计信息。该数据集通过关联规则挖掘技术构建,旨在发现数据中元素之间的关联关系。具体构建过程中,首先对数据进行预处理,包括离散化数值型数据,然后使用Apriori算法挖掘关联规则,生成规则集。每个规则由一组元素(属性-值对)组成,规则的兴趣度通过支持度和提升度等指标进行量化。
特点
Adult数据集的特点在于其丰富的属性信息,涵盖了年龄、教育程度、工作时长、收入等多个维度。数据集中的规则集通常包含大量规则,每条规则由多个元素组成,且规则的兴趣度可以通过不同的度量标准进行评估。此外,数据集中的元素贡献度通过SHARQ(ShApley Rules Quantification)框架进行量化,该框架基于Shapley值,能够有效衡量元素对规则集的贡献。
使用方法
Adult数据集的使用方法主要包括关联规则挖掘和元素贡献度分析。首先,通过Apriori等算法挖掘数据集中的关联规则,生成规则集。然后,使用SHARQ框架计算每个元素对规则集的贡献度,帮助用户理解哪些元素对规则的兴趣度影响最大。此外,SHARQ还可用于规则重要性分析,识别冗余规则,并通过属性重要性分析,确定哪些属性对规则生成过程影响最大。这些分析方法有助于用户从大量规则中提取关键信息,提升数据挖掘的效率。
背景与挑战
背景概述
Adult数据集是一个广泛应用于数据挖掘和机器学习领域的数据集,主要用于研究人口统计信息与收入之间的关系。该数据集由加州大学欧文分校(UCI)于1994年发布,包含约49,000条记录,每条记录包含14个属性,如年龄、教育程度、职业、性别等。该数据集的核心研究问题是通过关联规则挖掘技术,揭示不同人口统计特征与收入水平之间的潜在关联。Adult数据集在数据挖掘、关联规则分析以及机器学习模型的训练与评估中具有重要影响力,尤其是在解释性分析领域,它为研究人员提供了一个标准化的基准数据集。
当前挑战
Adult数据集在关联规则挖掘中面临的主要挑战包括:1) 数据稀疏性问题,由于数据集中的某些属性值分布不均,导致生成的关联规则可能缺乏足够的支持度;2) 规则冗余问题,挖掘出的规则数量庞大,且许多规则在语义上相似,难以区分其重要性;3) 解释性问题,传统的关联规则挖掘方法难以量化单个数据元素对规则集的贡献,导致用户难以理解规则背后的关键驱动因素。此外,构建过程中还面临计算复杂度高的问题,尤其是在处理大规模规则集时,计算每个元素的贡献值需要耗费大量时间和计算资源。
常用场景
经典使用场景
Adult Dataset 常用于关联规则挖掘,特别是在分析人口统计数据中的收入与其他属性(如教育水平、工作时长、婚姻状况等)之间的关系。通过关联规则挖掘,研究者可以发现不同属性之间的潜在关联,进而揭示影响收入的关键因素。
解决学术问题
该数据集解决了关联规则挖掘中的解释性问题,特别是在处理大规模规则集时,如何评估单个数据元素对规则集的重要性。通过引入SHARQ(ShApley Rules Quantification)框架,研究者能够量化每个元素对规则集的贡献,从而帮助用户理解哪些元素对规则的生成和解释最为关键。
衍生相关工作
基于Adult Dataset,许多经典工作得以衍生,特别是在关联规则挖掘和解释性分析领域。例如,SHARQ框架的提出不仅解决了规则解释性问题,还推动了其他基于Shapley值的解释性方法的发展。此外,该数据集还被用于研究COVID-19数据中的关联规则,揭示了疫情传播与人口统计特征之间的关系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作