five

UCI Adult dataset|收入预测数据集|人口统计数据集

收藏
github2020-03-04 更新2024-05-31 收录
收入预测
人口统计
下载链接:
https://github.com/akshat3096/UCI_Adult_dataset_R
下载链接
链接失效反馈
资源简介:
该数据集用于预测成年人的收入水平,基于人口普查数据。数据集包含多个属性,如年龄、工作类别、教育程度、婚姻状况、职业、种族、性别等,用于通过逻辑回归等模型分类个人收入。

This dataset is designed for predicting the income levels of adults, based on census data. It encompasses a variety of attributes such as age, work class, education level, marital status, occupation, race, and gender, which are utilized to classify individual incomes through models like logistic regression.
创建时间:
2019-02-15
原始信息汇总

数据集概述

数据集名称

UCI_Adult_dataset_R

数据集属性

  1. 目标变量

    • 收入:>50K, <=50K
  2. 个人属性

    • 年龄:连续
    • 工作类别:Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked
    • 教育:Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool
    • 教育年限:连续
    • 婚姻状态:Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse
    • 职业:Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces
    • 关系:Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried
    • 种族:White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black
    • 性别:Female, Male
    • 资本收益:连续
    • 资本损失:连续
    • 每周工作小时数:连续
    • 出生国家:United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands

模型性能

  • 分类树:83%
  • 随机森林:86%
  • GBM:86%
  • 神经网络:79%(敏感性96%)
  • 简单Logit模型:84%
AI搜集汇总
数据集介绍
main_image_url
构建方式
UCI Adult数据集通过收集和整理来自不同社会经济背景的个体信息构建而成。数据集包含了多个连续和分类变量,如年龄、工作类别、教育程度、婚姻状态、职业、种族、性别、资本收益和损失、每周工作小时数以及原籍国家等。这些变量的选择旨在全面反映个体的社会经济状况,从而为收入分类提供丰富的信息基础。数据集的构建过程严谨,确保了数据的多样性和代表性,为后续的分析和模型训练提供了坚实的基础。
特点
UCI Adult数据集以其丰富的变量和广泛的应用领域著称。该数据集不仅包含了连续变量如年龄和每周工作小时数,还涵盖了多种分类变量,如教育程度和职业类别,这些变量共同构成了一个复杂而全面的社会经济画像。此外,数据集的多样性体现在其涵盖了来自不同国家和种族的个体,这为研究不同背景下的收入差异提供了宝贵的资源。数据集的高质量和高代表性使其成为社会科学和机器学习领域的经典数据集之一。
使用方法
UCI Adult数据集主要用于收入分类模型的训练和评估。研究者可以通过加载数据集,利用各种机器学习算法如逻辑回归、分类树、随机森林、梯度提升机和神经网络等进行模型训练。数据集的预处理步骤通常包括缺失值处理、特征编码和数据标准化等。模型训练后,可以通过交叉验证和测试集评估模型的性能,如准确率、敏感性和特异性等指标。此外,数据集还可用于探索性数据分析,以揭示不同变量与收入之间的关系,为社会经济研究提供深入的见解。
背景与挑战
背景概述
UCI Adult数据集,又称作Census Income数据集,是由加州大学欧文分校(UCI)机器学习库维护的一个经典数据集。该数据集创建于1996年,主要用于研究收入预测问题。数据集包含了来自美国人口普查局的数据,涵盖了多个社会经济变量,如年龄、教育程度、职业、婚姻状况等,旨在预测个人的年收入是否超过50,000美元。该数据集在机器学习和数据挖掘领域具有广泛的应用,尤其是在分类算法的研究和评估中,为研究人员提供了一个标准化的基准数据集。
当前挑战
UCI Adult数据集在解决收入预测问题时面临多个挑战。首先,数据集中的特征具有高度的异质性,包括连续变量和分类变量,这增加了模型构建的复杂性。其次,数据集存在类别不平衡问题,即收入超过50,000美元的样本数量远少于收入低于或等于50,000美元的样本,这可能导致模型偏向于预测多数类别。此外,数据集的构建过程中,如何确保数据的质量和代表性也是一个重要挑战,尤其是在处理缺失值和异常值时。最后,尽管已有多种模型在该数据集上进行了测试,但如何进一步提升模型的准确性和泛化能力仍然是当前研究的重点。
常用场景
经典使用场景
UCI Adult数据集的经典使用场景主要集中在收入预测与分类任务上。通过分析个体的年龄、教育程度、职业、婚姻状况等特征,研究人员能够构建模型,预测个体年收入是否超过50,000美元。这一任务不仅在学术界广泛应用,也在实际应用中具有重要价值,如在人力资源管理和金融风险评估等领域。
解决学术问题
UCI Adult数据集解决了机器学习领域中经典的分类问题,即收入预测。通过该数据集,研究人员能够探索和验证不同分类算法的效果,如逻辑回归、决策树、随机森林和神经网络等。这不仅推动了分类算法的发展,还为后续研究提供了基准数据集,具有重要的学术意义和影响。
衍生相关工作
UCI Adult数据集的广泛应用催生了大量相关研究工作。例如,研究人员通过改进模型和算法,提高了收入预测的准确性和敏感性。此外,该数据集还被用于探索不同特征对收入的影响,如教育程度、职业类型和婚姻状况等。这些研究不仅丰富了机器学习领域的理论基础,还为实际应用提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录