yzhuang/autotree_automl_house_16H_gosdt_l512_d3_sd3
收藏Hugging Face2023-09-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yzhuang/autotree_automl_house_16H_gosdt_l512_d3_sd3
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: input_x
sequence:
sequence: float64
- name: input_y
sequence:
sequence: float32
- name: rtg
sequence: float64
- name: status
sequence:
sequence: float32
- name: split_threshold
sequence:
sequence: float64
- name: split_dimension
sequence: int64
splits:
- name: train
num_bytes: 9224800000
num_examples: 100000
- name: validation
num_bytes: 922480000
num_examples: 10000
download_size: 3198840988
dataset_size: 10147280000
---
# Dataset Card for "autotree_automl_house_16H_gosdt_l512_d3_sd3"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 字段名:id,数据类型:64位整数(int64)
- 字段名:input_x,数据类型:嵌套序列,元素类型为64位浮点数(float64)
- 字段名:input_y,数据类型:嵌套序列,元素类型为32位浮点数(float32)
- 字段名:rtg,数据类型:序列,元素类型为64位浮点数(float64)
- 字段名:status,数据类型:嵌套序列,元素类型为32位浮点数(float32)
- 字段名:split_threshold,数据类型:嵌套序列,元素类型为64位浮点数(float64)
- 字段名:split_dimension,数据类型:嵌套序列,元素类型为64位整数(int64)
拆分集:
- 拆分名称:训练集(train),占用字节数:9224800000,样本数量:100000
- 拆分名称:验证集(validation),占用字节数:922480000,样本数量:10000
下载总大小:3198840988
数据集总占用大小:10147280000
---
# 数据集卡片:"autotree_automl_house_16H_gosdt_l512_d3_sd3"
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
yzhuang
原始信息汇总
数据集概述
数据集信息
-
特征列表:
id:数据类型为int64input_x:序列类型,数据类型为float64input_y:序列类型,数据类型为float32rtg:序列类型,数据类型为float64status:序列类型,数据类型为float32split_threshold:序列类型,数据类型为float64split_dimension:数据类型为int64
-
数据分割:
train:包含 100000 个样本,总字节数为 9224800000validation:包含 10000 个样本,总字节数为 922480000
-
数据集大小:
- 下载大小:3198840988 字节
- 数据集总大小:10147280000 字节
搜集汇总
数据集介绍

构建方式
该数据集名为 yzhuang/autotree_automl_house_16H_gosdt_l512_d3_sd3,源自自动机器学习领域中的决策树优化研究。其构建基于 GOSDT(Generalized Optimal Sparse Decision Trees)算法,以房屋价格预测任务(house_16H)为背景,通过设定最大叶节点数为512、树深度为3、随机种子为3的参数配置,生成大量决策树结构数据。数据集中每条样本包含唯一标识符、输入特征(input_x)、目标值(input_y)、回归目标(rtg)、节点状态(status)、分裂阈值(split_threshold)及分裂维度(split_dimension)等字段,为监督学习与树模型分析提供结构化支撑。
使用方法
使用该数据集时,可通过 Hugging Face Datasets 库直接加载,指定分割为 'train' 或 'validation' 即可获取对应子集。数据以字典形式返回,键名与特征名称一致,其中 'input_x' 和 'input_y' 为嵌套序列,需按批次处理。建议将 'split_threshold' 与 'split_dimension' 作为树结构解析的关键输入,结合 'rtg' 进行回归任务训练。验证集可用于评估模型在未见数据上的性能,适合对比不同决策树算法的效率与准确性。
背景与挑战
背景概述
在自动化机器学习(AutoML)与可解释性决策树模型交叉融合的前沿领域,数据集yzhuang/autotree_automl_house_16H_gosdt_l512_d3_sd3应运而生。该数据集由研究团队针对16维房屋特征预测任务构建,融合了全局最优稀疏决策树(GOSDT)算法,设定最大叶节点数为512、树深度为3、随机种子为3,旨在探索高维表格数据中结构稀疏性与预测性能的平衡。其创建时间可追溯至AutoML与可解释AI快速发展的时期,核心研究问题聚焦于如何通过自动化调参生成兼具准确性与可解释性的决策树模型。该数据集通过提供100,000条训练样本与10,000条验证样本,为评估GOSDT在资源受限环境下的泛化能力提供了标准化基准,对推动可解释性机器学习在结构化数据中的应用具有重要参考价值。
当前挑战
该数据集所面临的挑战首先体现在领域问题层面:高维房屋特征数据(16个输入维度)中存在复杂的非线性交互与噪声干扰,传统决策树易陷入过拟合或欠拟合困境,而GOSDT需在512个叶节点与深度3的严格约束下实现全局最优解,这对算法在稀疏性约束与预测精度间的权衡能力提出了严苛要求。在构建过程中,挑战主要源于数据预处理与超参数空间探索的复杂性——原始特征需经过归一化与缺失值处理以适配自动调参流程,同时需在有限计算资源下高效搜索叶节点数、深度与正则化系数的组合,确保数据集的生成逻辑与GOSDT的优化目标高度一致。此外,大规模数据(约10GB)的存储与加载效率也构成了工程实践中的显著障碍。
常用场景
经典使用场景
在自动化机器学习(AutoML)与决策树优化的交叉领域,yzhuang/autotree_automl_house_16H_gosdt_l512_d3_sd3数据集为研究者提供了高维结构化决策树搜索的基准测试平台。该数据集源自房屋价格预测任务(house_16H),但经过GOSDT(Global Optimization of Sparse Decision Trees)算法的预处理与标注,融入了最优稀疏决策树的搜索路径信息,包括分裂阈值、维度及奖励信号(rtg)。其经典使用场景在于训练基于Transformer或强化学习的决策树生成模型,通过模拟专家搜索轨迹实现从数据到可解释树结构的端到端学习,从而替代传统贪心或启发式树构建方法。
解决学术问题
该数据集核心解决了可解释机器学习中稀疏决策树的结构搜索效率与泛化瓶颈。传统决策树算法如CART依赖局部贪心分裂,难以保证全局最优性,而精确求解稀疏最优树(如GOSDT)虽能获得最优解,但计算复杂度随特征维度指数增长。通过提供大规模(10万训练样本)的搜索轨迹数据,该数据集使研究者能够训练模仿学习或强化学习模型,从数据中学习最优分裂策略,显著降低推理时的搜索开销,同时保持接近全局最优的稀疏性。这为可解释性与预测精度之间的权衡提供了新的数据驱动范式,推动了AutoML中结构搜索的学术前沿。
实际应用
在实际应用中,该数据集训练出的模型可直接部署于需要高可解释性的金融风控、医疗诊断或工业质检场景。例如,银行信贷审批中,基于该数据集习得的稀疏决策树生成器能快速输出仅含少数关键特征(如收入、负债率)的规则集,既满足监管对模型可解释性的要求,又避免人工设计规则的繁琐。在医疗领域,模型可从电子病历中自动提取简洁的诊断路径,辅助医生理解疾病风险因子。此外,该数据集还可用于自动化特征工程工具,通过决策树结构反推重要特征组合,提升其他黑箱模型的透明度与可信度。
数据集最近研究
最新研究方向
该数据集聚焦于自动化机器学习(AutoML)与可解释决策树(如GOSDT)的交叉前沿,特别针对高维回归任务(如房价预测)探索结构化剪枝与稀疏性约束。当前研究热点包括:利用大规模搜索轨迹数据(含分裂阈值、维度等元特征)训练强化学习或模仿学习代理,以替代传统网格搜索;结合最优稀疏决策树(OSDT)算法,在保证模型可解释性的前提下提升自动化调参效率。该数据集通过记录10万次自动搜索中的关键决策节点,为构建轻量级元模型提供了基准,对降低AutoML计算成本、推动可解释AI在金融风控、房地产估值等领域的落地具有重要意义。
以上内容由遇见数据集搜集并总结生成



