yzhuang/autotree_automl_100000_Diabetes130US_sgosdt_l256_dim7_d3_sd0

Name: yzhuang/autotree_automl_100000_Diabetes130US_sgosdt_l256_dim7_d3_sd0
Creator: yzhuang
Published: 2023-09-12 06:54:10
License: 暂无描述

Hugging Face2023-09-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yzhuang/autotree_automl_100000_Diabetes130US_sgosdt_l256_dim7_d3_sd0

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: int64 - name: input_x sequence: sequence: float32 - name: input_y sequence: sequence: float32 - name: input_y_clean sequence: sequence: float32 - name: rtg sequence: float64 - name: status sequence: sequence: float32 - name: split_threshold sequence: sequence: float32 - name: split_dimension sequence: int64 splits: - name: train num_bytes: 2057200000 num_examples: 100000 - name: validation num_bytes: 205720000 num_examples: 10000 download_size: 257403365 dataset_size: 2262920000 --- # Dataset Card for "autotree_automl_100000_Diabetes130US_sgosdt_l256_dim7_d3_sd0" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

yzhuang

原始信息汇总

数据集概述

数据集信息

特征列表：
- id: 类型为 int64
- input_x: 序列类型为 float32
- input_y: 序列类型为 float32
- input_y_clean: 序列类型为 float32
- rtg: 序列类型为 float64
- status: 序列类型为 float32
- split_threshold: 序列类型为 float32
- split_dimension: 类型为 int64
数据分割：
- train: 字节数为 2057200000，样本数为 100000
- validation: 字节数为 205720000，样本数为 10000
数据集大小：
- 下载大小：257403365 字节
- 数据集大小：2262920000 字节

搜集汇总

数据集介绍

构建方式

该数据集源自AutoML领域中的稀疏最优决策树（sgosdt）算法在糖尿病130美国数据集上的应用实例，旨在为自动化机器学习研究提供标准化的训练与评估基准。数据集构建过程中，首先基于原始糖尿病130美国数据集进行特征工程与预处理，随后采用sgosdt算法（参数设置为叶子节点数256、特征维度7、树深度3、随机种子0）生成决策树路径数据。每条样本包含唯一标识符id、输入特征序列input_x、原始标签序列input_y、干净标签序列input_y_clean、即时奖励rtg、状态标记status、分裂阈值split_threshold以及分裂维度split_dimension，共计10万条训练样本与1万条验证样本，以序列化结构存储。

特点

该数据集的核心特点在于其结构化的决策树路径表示形式，将传统表格数据转化为序列化特征，便于深度学习模型直接处理。所有特征均以浮点数或整数序列存储，保留了树模型的分裂信息与层次结构，为强化学习或序列建模任务提供了丰富的状态-动作映射关系。训练集与验证集按9:1比例划分，数据量充足且均衡，支持大规模模型的训练与验证。此外，数据集包含干净标签与原始标签的对比，便于研究噪声鲁棒性，而即时奖励rtg的引入则为离线强化学习场景提供了奖励信号。

使用方法

使用该数据集时，用户可通过HuggingFace Datasets库直接加载，指定split参数为'train'或'validation'即可获取对应子集。数据以字典形式返回，包含id、input_x、input_y等字段，适合用于序列分类、回归或强化学习任务。推荐将input_x作为模型输入，input_y作为监督信号，rtg作为奖励函数参考。对于决策树路径建模，可利用split_threshold和split_dimension重建树结构，或直接利用序列特征训练Transformer等架构。数据集已预分割，无需额外划分，可直接用于训练与评估循环。

背景与挑战

背景概述

该数据集由研究者yzhuang等人创建，旨在探索自动机器学习（AutoML）在医疗健康领域的应用，特别是针对糖尿病患者的130项美国临床指标进行预测建模。数据集基于著名的Diabetes 130-US医院数据集，通过稀疏最优决策树（SGOSDT）算法生成，包含100,000个训练样本和10,000个验证样本，每个样本包含256维特征、7个深度和3个分裂维度。其核心研究问题在于如何利用AutoML技术自动构建高效、可解释的决策树模型，以提升糖尿病再入院预测的准确性和鲁棒性。该数据集的发布为医疗决策支持系统提供了标准化基准，推动了可解释机器学习在临床预后中的发展。

当前挑战

该数据集面临的核心挑战在于解决医疗数据的高维稀疏性与模型可解释性之间的平衡。具体而言，糖尿病临床指标包含大量冗余或缺失特征，SGOSDT算法需在有限深度（d=3）和维度（dim=7）下提取有效分裂阈值，避免过拟合。构建过程中，数据预处理需处理原始130维特征的非线性关系和类别不平衡问题，同时保证分裂阈值的物理可解释性。此外，100,000样本量虽大，但医疗数据的隐私合规性（如去标识化）和跨机构泛化能力仍是未竟挑战，需通过更鲁棒的AutoML框架或联邦学习策略加以克服。

常用场景

经典使用场景

在机器学习与自动化机器学习（AutoML）的交叉领域中，该数据集以其独特的结构设计，成为探索决策树可微化与神经符号学习的理想试验场。其核心特征在于将经典的糖尿病130-US临床数据转化为高维序列化表示，并嵌入稀疏最优分类树（SGOSDT）的决策路径信息，包括分裂阈值与维度。研究者常利用此数据集检验可微决策树在有限深度（如深度3）与维度（如维度7）约束下的表达能力，尤其关注模型在保持可解释性的同时，如何逼近复杂非线性决策边界。该场景下，数据集不仅提供了标准化的输入输出对，还包含了清晰标注的标签与中间状态，为端到端的可微分树结构学习提供了基准测试平台。

解决学术问题

该数据集直击可解释机器学习领域的一个核心矛盾：如何在高维临床数据中平衡模型精度与决策透明性。通过提供经过预处理的糖尿病再入院预测特征与对应最优决策树路径，它解决了传统黑箱模型（如深度神经网络）难以提供临床可解释规则的问题。学术研究中，它常被用于验证稀疏最优分类树在医疗场景下的泛化能力，并探索将符号推理与神经网络结合的新范式。其意义在于，为构建既满足临床准确性要求、又能生成可审计决策路径的模型提供了标准化数据支撑，推动了可解释AI在医疗诊断中的可信应用。

衍生相关工作

该数据集衍生了一系列融合神经符号学习与AutoML的前沿工作。例如，基于其结构，研究者提出了可微决策森林（Differentiable Decision Forest）架构，通过反向传播优化分裂节点参数，同时保持最终模型的稀疏性与可解释性。另有工作将其作为基准，对比传统CART、XGBoost与神经决策树的性能差异，并探索利用强化学习搜索最优树拓扑结构。此外，该数据集还催生了针对高维序列化特征的注意力机制改进方案，用于动态选择关键决策维度，进一步推动了结构化数据中符号与连接主义方法的融合研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集