yzhuang/autotree_automl_10000_house_16H_sgosdt_l256_dim10_d3_sd0
收藏Hugging Face2023-09-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yzhuang/autotree_automl_10000_house_16H_sgosdt_l256_dim10_d3_sd0
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: input_x
sequence:
sequence: float32
- name: input_y
sequence:
sequence: float32
- name: input_y_clean
sequence:
sequence: float32
- name: rtg
sequence: float64
- name: status
sequence:
sequence: float32
- name: split_threshold
sequence:
sequence: float32
- name: split_dimension
sequence: int64
splits:
- name: train
num_bytes: 236440000
num_examples: 10000
- name: validation
num_bytes: 236440000
num_examples: 10000
download_size: 168523499
dataset_size: 472880000
---
# Dataset Card for "autotree_automl_10000_house_16H_sgosdt_l256_dim10_d3_sd0"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征:
- 名称: id
类型: 标量,数据类型为int64
- 名称: input_x
类型: 双层序列,元素数据类型为float32
- 名称: input_y
类型: 双层序列,元素数据类型为float32
- 名称: input_y_clean
类型: 双层序列,元素数据类型为float32
- 名称: rtg
类型: 序列,元素数据类型为float64
- 名称: status
类型: 双层序列,元素数据类型为float32
- 名称: 分割阈值(split_threshold)
类型: 双层序列,元素数据类型为float32
- 名称: 分割维度(split_dimension)
类型: 单层序列,元素数据类型为int64
数据集划分:
- 名称: 训练集(train)
占用字节数: 236440000
样本数量: 10000
- 名称: 验证集(validation)
占用字节数: 236440000
样本数量: 10000
下载总大小: 168523499
数据集总存储大小: 472880000
---
# 数据集卡片:"autotree_automl_10000_house_16H_sgosdt_l256_dim10_d3_sd0"
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
yzhuang
原始信息汇总
数据集概述
数据集信息
- 特征列表:
id: 数据类型为int64input_x: 序列类型,数据类型为float32input_y: 序列类型,数据类型为float32input_y_clean: 序列类型,数据类型为float32rtg: 数据类型为float64status: 序列类型,数据类型为float32split_threshold: 序列类型,数据类型为float32split_dimension: 数据类型为int64
数据分割
- 训练集:
- 字节数: 236440000
- 样本数: 10000
- 验证集:
- 字节数: 236440000
- 样本数: 10000
数据集大小
- 下载大小: 168523499
- 数据集大小: 472880000
搜集汇总
数据集介绍

构建方式
在自动化机器学习与可解释决策树模型交叉领域中,该数据集以‘house_16H’为基底,针对SGOSDT算法生成的结构化搜索轨迹进行了系统性采集。构建过程中,固定树的最大叶节点数为256、特征维度为10、树深度为3,并通过随机种子0控制实验可复现性。每条数据记录包含唯一标识符、输入特征张量、带噪与干净的输出标签、回归目标值(rtg)、搜索状态、分裂阈值及分裂维度,共计10000个训练样本与10000个验证样本,形成了完整的决策树搜索路径数据集。
特点
该数据集的核心特点在于其融合了自动化机器学习搜索过程中的动态信息与静态树结构参数。不同于传统监督学习数据集仅提供输入输出对,本数据集额外记录了搜索状态、回归目标及每次分裂操作的细节,使得研究者能够追溯模型从初始状态到最终树的完整演化路径。这种多维度的时序序列结构,为分析SGOSDT算法的搜索行为、诊断模型收敛性以及设计更高效的树生长策略提供了独特的数据支撑。
使用方法
使用时,可通过HuggingFace Datasets库直接加载,数据集被划分为训练与验证两个子集,每个子集包含10000个样本。用户可依据‘input_x’和‘input_y’进行基础的监督学习任务,或利用‘rtg’、‘status’及分裂参数序列开展强化学习与序列建模研究。数据格式支持PyTorch、TensorFlow等主流框架的迭代器接口,便于嵌入到自动化机器学习流水线或决策树搜索算法的改进实验中。
背景与挑战
背景概述
该数据集由研究者基于AutoML与可解释机器学习领域的前沿成果构建,旨在探索决策树模型在自动化机器学习中的优化潜力。其核心研究问题聚焦于如何通过稀疏最优决策树(SGOSDT)算法,在给定高维特征空间(如16维住房数据)中生成可解释且高效的分类或回归模型。数据集创建于近年来AutoML技术快速发展的背景下,由相关团队针对经典‘house_16H’问题设计,包含10,000条训练与验证样本,记录了输入特征、目标变量及分割参数等关键信息。这一资源为评估不同自动化搜索策略下的决策树性能提供了标准化基准,推动了可解释模型在结构化数据领域的应用研究。
当前挑战
当前数据集面临的核心挑战包括:其一,高维特征空间中稀疏决策树的搜索复杂度极高,现有算法需在模型可解释性与预测精度间取得平衡,而数据集中预设的深度(d=3)与维度(dim=10)限制可能不足以覆盖复杂模式;其二,构建过程中,数据预处理与分割阈值的优化依赖大量超参数调优,且‘status’与‘rtg’等字段的引入需确保自动化搜索过程的稳定性和可重复性;其三,数据集规模(10,000样本)在应对真实世界噪声与分布偏移时存在局限,可能影响迁移学习与跨领域泛化能力。
常用场景
经典使用场景
该数据集基于经典的‘house_16H’回归任务,专为自动化机器学习(AutoML)与神经符号决策树(如SGOSDT)的联合优化而设计。其核心应用场景在于训练和评估能够同时处理连续特征与离散化分叉路径的混合模型,尤其适用于高维(dim10)且深度受限(l256)的稀疏决策树结构。研究者常利用该数据集的10,000个训练样本和相同规模的验证集,探索在有限深度与维度约束下,如何通过强化学习或进化策略自动生成兼具预测精度与可解释性的树模型。其序列化的输入输出格式(input_x, input_y, input_y_clean)为模拟在线学习或迭代式树结构搜索提供了标准化基准。
实际应用
在实际应用中,该数据集可模拟金融风控、医疗诊断或工业传感等高维且需可解释性的场景。例如,在信贷评分中,决策树的分裂阈值与维度可直接对应客户的收入分箱或负债比率,模型输出的稀疏树结构便于监管合规审查。类似地,在设备故障预测中,稀疏树能明确指示关键传感器(如温度、振动)的报警阈值,从而在保持预测可靠性的同时降低误报率。该数据集的标准化格式还便于企业快速迁移至AutoML流水线,通过预训练的分裂参数(split_threshold)初始化新场景的树结构,减少从零开始搜索的成本。
衍生相关工作
受该数据集启发,衍生出一系列围绕‘稀疏全局优化决策树’的经典工作。例如,研究者基于其序列化格式提出了‘动态深度剪枝’策略,通过监测rtg的边际收益自动终止树生长;另一项工作则利用split_dimension的稀疏性分布,设计了‘维度注意力权重’机制,提升高维特征筛选效率。此外,该数据集被作为基准用于验证‘可微分决策树蒸馏’方法——将SGOSDT的离散分裂转化为连续松弛,从而兼容梯度反向传播。这些工作共同推动了从传统手工特征工程向自动化、可解释树结构搜索的范式转变。
以上内容由遇见数据集搜集并总结生成



