AFABench

Name: AFABench
Creator: 查尔姆斯理工大学 & 哥德堡大学
Published: 2025-08-20 22:29:16
License: 暂无描述

arXiv2025-08-20 更新2025-08-22 收录

下载链接：

https://github.com/Linusaronsson/AFA-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

AFABench是一个用于基准测试主动特征获取（AFA）的通用框架。它包括了一系列合成和真实世界的数据集，支持广泛的获取策略，并提供了模块化设计，便于集成新的方法和任务。该框架实现了并评估了来自所有主要类别的代表性算法，包括静态、贪婪和基于强化学习的策略。为了测试AFA策略的预测能力，引入了一个新的合成数据集AFAContext，旨在暴露贪婪选择的局限性。

AFABench is a general-purpose framework for benchmarking Active Feature Acquisition (AFA). It comprises a suite of synthetic and real-world datasets, supports a wide range of acquisition strategies, and features a modular design that facilitates the integration of novel methods and tasks. This framework implements and evaluates representative algorithms from all major categories, including static, greedy, and reinforcement learning-based policies. To evaluate the predictive capabilities of AFA policies, a novel synthetic dataset named AFAContext was introduced to expose the limitations of greedy selection.

提供机构：

查尔姆斯理工大学 & 哥德堡大学

创建时间：

2025-08-20

原始信息汇总

AFA Benchmark 数据集概述

数据集简介

AFA Benchmark 是一个用于主动特征获取（Active Feature Acquisition, AFA）方法的综合基准测试平台。该平台专注于在特征获取成本高昂的场景下比较最先进的顺序特征选择算法，包含多种AFA方法的实现、标准化数据集和自动化评估流程。

核心特性

使用hydra配置，确保可读性和可复现性
模块化设计：支持按需重新运行流水线的特定部分
可扩展框架：支持添加自定义数据集和AFA方法

当前限制

仅支持硬预算方法（具有固定资源约束的方法）的评估
仅支持分类任务，尚未实现回归任务

包含的数据集

合成数据集

数据集名称	数据量	特征数量	类别数量
CUBE	1,000	20	8
AFAContext	1,000	30	8

真实世界数据集

数据集名称	数据量	特征数量	类别数量
MNIST	60,000	784	10
FashionMNIST	60,000	784	10
Diabetes	92,063	45	3
PhysioNet	12,000	41	2
MiniBooNE	130,064	50	2

实现的方法

该基准测试包含以下AFA方法：

基于互信息的方法

EDDI-GG：生成式条件互信息估计（贪婪策略）
GDFS-DG：判别式条件互信息估计（贪婪策略）
DIME-DG：判别式条件互信息估计（贪婪策略）

强化学习方法

JAFA-MFRL：无模型强化学习（非贪婪策略）
OL-MFRL：无模型强化学习（非贪婪策略）
ODIN-MFRL：无模型强化学习（非贪婪策略）
ODIN-MBRL：基于模型的强化学习（非贪婪策略）

其他方法

AACO：基于Oracle的方法（非贪婪策略）
PT-S：全局特征重要性方法
CAE-S：全局特征重要性方法

项目结构

项目采用模块化设计，主要目录包括：

conf：所有配置文件
scripts：包含数据集生成、训练、评估和绘制的脚本
src：源代码
tests：单元测试

使用流程

基准测试提供完整的流水线操作，包括：

数据集生成
方法预训练（如需要）
方法训练
分类器训练
评估
结果绘制

引用信息

如需在研究中使用此基准测试，请引用相关论文（arXiv:2508.14734）。

许可证信息

项目采用XYZ许可证。

搜集汇总

数据集介绍

构建方式

AFABench采用模块化框架设计，通过整合合成与真实数据集构建标准化评估环境。其构建过程严格遵循特征动态获取的序列决策范式，以固定预算约束为前提，确保各方法在统一条件下比较。数据集涵盖医疗诊断、粒子物理等多个领域，每个实例的特征获取均模拟真实场景中的成本权衡机制，例如医疗测试中的费用与延迟考量。

使用方法

AFABench的使用需遵循其模块化评估协议：首先加载预定义数据集与基准方法，通过统一接口调用特征获取策略。评估时固定特征预算，以分类准确率或F1分数作为核心指标，支持跨方法性能对比。框架允许用户扩展新算法或数据集，只需适配标准化的策略接口与环境交互模块，所有实验均需重复多次以统计显著性，确保结果可靠性。

背景与挑战

背景概述

AFABench由查尔姆斯理工大学与哥德堡大学联合研究团队于2025年提出，是首个面向主动特征获取（Active Feature Acquisition, AFA）领域的标准化基准框架。该数据集旨在解决现实场景中因成本、延迟或隐私限制无法获取全部特征的问题，通过动态选择信息量最大的特征子集来平衡预测性能与特征获取成本。其核心研究问题在于建立统一的评估体系，以克服以往研究中方法孤立、评估标准不一致的局限性，推动AFA领域向标准化、可复现的方向发展，对医疗诊断、推荐系统等需要成本敏感决策的领域具有重要影响。

当前挑战

AFABench面临的领域挑战主要体现为如何在高维特征空间中高效识别实例特定的关键特征，同时处理特征间的条件依赖关系。构建过程中的技术挑战包括：一是需要设计兼顾合成数据与真实场景的多样化数据集，特别是构建能暴露贪婪策略局限性的非近视评估环境（如AFAContext数据集）；二是需统一不同范式方法（包括贪婪策略、强化学习与非贪婪算法）的评估协议，确保在固定预算、统一分类器架构下的公平对比；三是解决强化学习方法训练不稳定、计算成本高以及生成式方法扩展性受限等问题。

常用场景

经典使用场景

在医疗诊断和推荐系统等实际应用中，AFABench被广泛用于评估动态特征获取策略的性能，其模块化设计支持多种算法在统一框架下的公平比较。该数据集通过合成和真实数据结合的方式，模拟了特征获取成本与预测精度之间的权衡，为研究者在不同预算约束下优化特征选择提供了标准化测试环境。

解决学术问题

AFABench解决了动态特征获取领域缺乏标准化评估框架的问题，为贪婪策略、强化学习等不同范式的方法提供了公平比较基础。其通过引入条件互信息估计和序列决策建模，显著推进了成本敏感机器学习理论的发展，并为高维数据下的特征重要性量化提供了新的方法论支持。

实际应用

在医疗健康领域，AFABench可优化临床检测流程，根据患者个体情况动态选择最具信息量的医学检测项目，显著降低诊断成本。在推荐系统中，该框架能减少用户偏好查询次数，通过智能特征获取平衡个性化推荐质量与用户隐私保护需求。

数据集最近研究