Hierarchical Feature Generation Framework (HFGF) Benchmark Datasets

Name: Hierarchical Feature Generation Framework (HFGF) Benchmark Datasets
Creator: 德国罗斯托克大学计算机科学学院
Published: 2025-07-25 20:29:58
License: 暂无描述

arXiv2025-07-25 更新2025-07-29 收录

下载链接：

https://github.com/Chaithra-U/HFGF

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了一个名为HFGF的层次特征生成框架，用于生成保留数据集中属性间依赖关系的合成表格数据。该框架由德国罗斯托克大学计算机科学学院的研究团队提出，旨在解决现有生成模型在隐私敏感领域，如医疗保健，中难以保留属性间关系的问题。HFGF首先使用标准生成模型生成独立特征，然后根据预定义的函数依赖(FD)和逻辑依赖(LD)规则重构依赖特征。该框架通过在四个具有不同大小、特征不平衡和依赖复杂性的基准数据集上的实验，证明了其在六种生成模型中提高了FD和LD的保留程度。HFGF能够显著提高合成表格数据的结构保真度和下游实用性。

This paper presents HFGF, a hierarchical feature generation framework for synthesizing tabular data that preserves dependencies between attributes within the dataset. Developed by a research team from the School of Computer Science at the University of Rostock, Germany, this framework aims to address the critical limitation of existing generative models failing to retain inter-attribute dependencies in privacy-sensitive domains such as healthcare. HFGF first generates independent features using standard generative models, then reconstructs dependent features in line with predefined functional dependency (FD) and logical dependency (LD) rules. Through experiments conducted on four benchmark datasets with varying scales, degrees of feature imbalance, and dependency complexities, the framework validates that it enhances the retention of FDs and LDs across six distinct generative models. HFGF can substantially improve the structural fidelity and downstream task utility of synthesized tabular data.

提供机构：

德国罗斯托克大学计算机科学学院

创建时间：

2025-07-25

原始信息汇总

数据集概述：Dependency-Aware Synthetic Tabular Data Generation

框架介绍

框架名称：Hierarchical Feature Generation Framework (HFGF)
核心功能：生成合成表格数据，同时保留特征间的功能性和逻辑性依赖关系

框架工作流程

特征分类：识别独立特征和依赖特征
特征生成：
- 使用标准生成模型生成独立特征
- 根据已知或提取的依赖关系映射依赖特征
数据合成：拼接独立和依赖特征形成最终合成数据集

依赖关系识别方法

基准数据：依赖关系预定义，独立和依赖特征明确已知
真实数据：
- 功能性依赖：使用FDTool提取
- 逻辑性依赖：使用Q-function评估(Q-score=1表示无依赖)

基准数据集

数量：4个
变量维度：
- 特征数量
- 行数
- 依赖关系的类型和数量
文件位置：
- 数据生成代码：Benchmark_data_generator.py
- 生成数据集：Benchmark_data/

应用指南

使用FDTool和Q-function提取依赖关系
基于依赖信息识别独立特征
使用生成模型生成独立特征
应用依赖规则映射依赖特征
拼接特征形成最终数据集
评估依赖关系保留情况

对比生成模型

CTGAN
CTABGAN+
TVAE
NextConvGeN
TabuLa
GReaT

搜集汇总

数据集介绍

构建方式

在合成表格数据生成领域，HFGF基准数据集的构建采用了层次化特征生成框架。该方法首先通过标准生成模型创建独立特征，随后基于预定义的功能依赖(FD)和逻辑依赖(LD)规则重构依赖特征。构建过程中，用户需指定样本数量n和配置字典config，后者详细定义了各特征的元数据，包括数值特征的取值范围、分类特征的类别分布，以及特征间的依赖关系。这种分层生成策略确保了依赖关系的显式建模和精确重建，为评估生成模型的依赖保持能力提供了可控的实验环境。

特点

HFGF基准数据集的核心特征在于其精心设计的依赖结构。数据集包含四种不同配置的基准数据，规模从100行到1000行不等，特征数量介于7至15个之间，涵盖分类、整数和标识符等多种特征类型。特别值得注意的是，这些数据集嵌入了明确的功能依赖和逻辑依赖关系，包括一对一、多对一功能依赖和一对多逻辑依赖。通过控制特征不平衡度和依赖复杂度，数据集能够全面评估生成模型在不同场景下的表现。此外，数据集的设计还考虑了小数据场景的挑战，为临床等隐私敏感领域的应用提供了重要参考价值。

使用方法

HFGF数据集的使用遵循系统化的评估流程。研究者首先选择六种主流生成模型(包括CTGAN、TVAE等)生成独立特征的合成数据，随后应用预定义的映射规则重建依赖特征。评估阶段采用FDTool工具检测功能依赖，运用Q函数量化逻辑依赖的保持程度。Q函数通过计算特征子集间的关联强度，产生0到1的评分，0表示完全功能依赖，1表示完全独立，中间值则反映逻辑依赖强度。这种评估方法不仅能全面衡量生成模型保持依赖关系的能力，还能通过PCA降维和Peacock检验验证合成数据与真实数据的分布相似性，为改进生成算法提供多维度的性能指标。

背景与挑战

背景概述

Hierarchical Feature Generation Framework (HFGF) Benchmark Datasets是由Chaithra Umesh等研究人员于2025年提出的，旨在解决合成表格数据生成中功能依赖(FDs)和逻辑依赖(LDs)保留不足的问题。该框架由德国罗斯托克大学计算机科学研究所、慕尼黑工业大学莱布尼茨食品系统生物学研究所等机构联合开发，通过分层生成独立特征并基于预定义规则重构依赖特征，显著提升了合成数据的结构保真度。HFGF针对医疗等隐私敏感领域的数据共享需求，填补了现有生成模型在保留属性间确定性关系方面的研究空白，为合成数据的下游分析任务提供了更可靠的语义完整性保障。

当前挑战

HFGF面临的核心挑战体现在两个维度：在领域问题层面，现有生成模型如CTGAN、TVAE等难以同时保持功能依赖和逻辑依赖，导致合成数据在涉及确定性规则的应用场景（如临床决策）中可靠性不足；在构建过程层面，框架需解决依赖关系的递归重构难题，包括处理特征不平衡条件下的类别缺失问题、高维空间中重叠依赖的冲突消解，以及数值型与分类型特征间交互关系的建模局限。此外，基准数据集的构建需要精确控制样本量、特征不平衡度和依赖复杂度等多变量，这对依赖规则的数学表达和生成算法的鲁棒性提出了极高要求。

常用场景

经典使用场景

HFGF基准数据集在合成表格数据生成领域具有重要应用，尤其在需要保持属性间功能依赖（FDs）和逻辑依赖（LDs）的场景中表现突出。该数据集通过控制样本数量、特征不平衡和依赖复杂性，为评估生成模型在保留结构化关系方面的性能提供了标准化测试环境。在隐私敏感的医疗数据合成中，HFGF框架通过分层生成独立特征并基于预设规则重建依赖特征，显著提升了合成数据的结构保真度。

解决学术问题

该数据集有效解决了生成模型中难以同时保留功能依赖和逻辑依赖的学术难题。传统生成方法如CTGAN、TVAE等虽能模拟数据分布，却常破坏属性间的确定性关联。HFGF通过分离独立特征生成与依赖特征映射，系统性维护了FDs和LDs，其提出的Q函数量化评估方法为依赖关系研究提供了新工具。这一突破对数据库规范化、数据隐私保护及临床数据分析等领域具有重要理论意义。

衍生相关工作

基于HFGF的范式创新催生了多项重要研究：CTABGAN+通过改进特征编码增强了对单峰连续变量的处理；TabuLa利用语言模型优化了表格数据的标记化表示；GReaT将随机特征排列引入Transformer架构。这些工作共同推动了依赖感知生成模型的发展，其中NextConvGeN的凸空间学习方法在复杂依赖场景下实现了93%的FD保留率，成为该领域的代表性进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集