mstz/nursery
收藏Hugging Face2023-04-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mstz/nursery
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
tags:
- nursery
- tabular_classification
- UCI
pretty_name: Nursery
size_categories:
- 1K<n<10K
task_categories:
- tabular-classification
configs:
- nursery
- nursery_binary
license: cc
---
# Nursery
The [Nursery dataset](https://archive-beta.ics.uci.edu/dataset/76/nursery) from the [UCI repository](https://archive-beta.ics.uci.edu/).
Should the nursery school accept the student application?
# Configurations and tasks
| **Configuration** | **Task** |
|-------------------|---------------------------|
| nursery | Multiclass classification |
| nursery_binary | Binary classification |
提供机构:
mstz
原始信息汇总
数据集概述
基本信息
- 名称: Nursery
- 语言: 英语
- 标签:
- nursery
- tabular_classification
- UCI
- 美观名称: Nursery
- 大小分类: 1K<n<10K
- 任务分类: tabular-classification
- 许可证: cc
数据集描述
- 来源: UCI repository
- 问题: 是否应接受幼儿园学生的申请?
配置与任务
| 配置 | 任务 |
|---|---|
| nursery | 多类别分类 |
| nursery_binary | 二元分类 |
搜集汇总
数据集介绍

构建方式
Nursery数据集源自UCI机器学习库,旨在模拟幼儿园入学申请的审批过程。该数据集基于多维度属性构建,涵盖了家庭财务状况、父母职业、子女数量、健康状况以及居住环境等关键因素,共计8个离散型特征。原始数据通过结构化采集与整理,形成了包含12960个样本的表格型分类数据集。为适应不同研究需求,数据集提供了两种配置版本:原始多分类版本(nursery)与二分类简化版本(nursery_binary),前者保留了从“不推荐”到“非常推荐”的五个等级标签,后者则将结果归纳为“接受”与“拒绝”两类。这种设计兼顾了细粒度分析与简化决策场景的适用性。
特点
Nursery数据集的核心特点在于其现实应用导向与结构清晰性。作为典型的表格分类数据,所有特征均为类别型变量,无需额外数值化处理,便于直接应用于决策树、随机森林等传统机器学习模型。数据集规模适中(约1.3万样本),既保证了统计显著性,又避免了大规模计算负担。其标签体系具有明确的层次性,多分类版本能够反映教育决策中的细微偏好差异,而二分类版本则聚焦于二元取舍问题。此外,该数据集来源于真实社会调查背景,特征组合逻辑贴近实际招生规则,为教育政策分析提供了可量化的实验基准。
使用方法
该数据集通过HuggingFace Datasets库加载,用户可使用`load_dataset('mstz/nursery')`命令直接获取。加载后需指定配置名称,例如`load_dataset('mstz/nursery', 'nursery')`用于多分类任务,或`load_dataset('mstz/nursery', 'nursery_binary')`用于二分类任务。数据以标准的表格格式呈现,特征列可直接作为模型输入,标签列用于训练与评估。建议在使用前对类别特征进行编码(如独热编码或标签编码),以适配不同算法的输入要求。该数据集适用于监督学习中的分类任务,尤其适合作为教育领域决策支持系统的验证基准。
背景与挑战
背景概述
育儿园申请评估数据集(Nursery)源自UCI机器学习库,由多位教育决策领域的研究人员于20世纪90年代创建,旨在模拟托儿所入学申请的自动审核过程。该数据集基于斯洛文尼亚卢布尔雅那地区教育部门的实际决策规则构建,核心研究问题在于如何通过家庭经济状况、父母职业、子女数量及健康状况等多维属性,预测申请是否被接受。作为经典的表格分类基准,Nursery数据集因其清晰的层级结构和可解释性,在机器学习公平性评估与规则学习领域产生了深远影响,为后续教育政策模拟提供了重要参考。
当前挑战
该数据集面临的核心挑战在于类别不均衡与决策边界模糊性。原始多分类任务中,'推荐录取'与'优先录取'等类别样本分布悬殊,导致模型易偏向多数类;而转化为二分类任务时,原规则中隐含的优先级排序信息被压缩,损失了部分决策逻辑。构建过程中,数据采集受限于斯洛文尼亚特定地区的教育政策框架,其属性定义(如'家庭经济状况'等级划分)具有地域局限性,可能难以泛化至其他文化背景。此外,数据量仅数千条,在深度学习时代难以支撑复杂模型的训练需求,限制了其在现代教育决策系统中的应用潜力。
常用场景
经典使用场景
在机器学习与数据挖掘领域,Nursery数据集作为源自UCI经典资源库的表格分类基准,广泛应用于评估分类算法的性能。该数据集基于对幼儿园入学申请的多元特征(如家庭结构、财务状况、社会背景等)进行建模,旨在预测申请是否应被接受。其经典使用场景包括多类别分类(原始配置下含五个等级)与二元分类(简化配置下区分为接受与拒绝),常被研究者用于对比决策树、支持向量机、随机森林及神经网络等模型在结构化数据上的泛化能力与鲁棒性。通过该数据集,学者能够系统性地检验不同算法在特征交互复杂、类别分布不均情境下的表现差异,从而推动分类理论的发展。
解决学术问题
Nursery数据集的核心学术价值在于解决教育资源配置中的决策可解释性与公平性问题。传统上,幼儿园入学评估依赖人工经验,易受主观偏见影响且缺乏量化依据。该数据集为研究提供了标准化测试平台,使学者得以探索如何利用机器学习方法构建客观、可复现的入学筛选模型。它有效支撑了特征重要性分析、类别不平衡处理及多分类性能优化等关键问题的实证研究,揭示了家庭收入、子女数量、父母职业等变量对录取结果的影响权重。这些成果不仅深化了人们对教育公平机制的理解,也为后续开发更透明的自动化决策系统奠定了方法论基础。
衍生相关工作
基于Nursery数据集已衍生出一系列经典研究工作,推动了表格数据学习的理论创新。早期工作聚焦于决策树剪枝策略的对比分析,如Quinlan的C4.5算法在该数据集上的表现验证了信息增益比在离散特征场景下的有效性。后续研究引入集成学习框架,如随机森林与梯度提升机(如XGBoost)在Nursery上的基准测试,揭示了模型复杂度与过拟合控制间的权衡。近年来,该数据集还被用于评估深度学习在结构化数据上的适配性,例如TabNet与NODE等可解释性神经网络架构的消融实验。这些衍生工作共同构建了从传统统计方法到现代神经网络的完整研究谱系。
以上内容由遇见数据集搜集并总结生成



