Synthetic data set on a hypercube

Name: Synthetic data set on a hypercube
Creator: The Alan Turing Institute, London, NW1 2DB, United Kingdom. Department of Statistics, University of Oxford, OX1 3LB, United Kingdom. University Of Edinburgh, EH9 3FD, United Kingdom. University Of Warwick, Coventry, CV4 7AL, United Kingdom. School of Mathematics and Statistics, University of Glasgow, G12 8QQ, United Kingdom.
Published: 2025-05-28 21:13:52
License: 暂无描述

arXiv2025-05-28 更新2025-05-30 收录

下载链接：

https://github.com/alan-turing-institute/CPICF

下载链接

链接失效反馈

官方服务：

资源简介：

本文使用了一个合成数据集，该数据集在超立方体上进行设计，允许全面可视化决策边界和通过三种不同方法获得的符合性区间。数据集被用于探索和评估个性化符合性预测区间反事实（CPICFs）。该数据集用于测试CPICFs在数据增强方面的效用，并测试在保留集合上的性能。

This study employs a synthetic dataset designed on a hypercube, which enables comprehensive visualization of decision boundaries and conformity intervals derived via three distinct methods. This dataset is utilized to explore and evaluate personalized conformal prediction interval counterfactuals (CPICFs), as well as to test the utility of CPICFs in data augmentation and their performance on the holdout set.

提供机构：

The Alan Turing Institute, London, NW1 2DB, United Kingdom. Department of Statistics, University of Oxford, OX1 3LB, United Kingdom. University Of Edinburgh, EH9 3FD, United Kingdom. University Of Warwick, Coventry, CV4 7AL, United Kingdom. School of Mathematics and Statistics, University of Glasgow, G12 8QQ, United Kingdom.

创建时间：

2025-05-28

原始信息汇总

数据集概述

基本信息

数据集名称：Conformal Prediction Interval Counterfactuals
关联会议：COPA (https://copa-conference.com/)
关联论文："Individualised Counterfactual Examples Using Conformal Prediction Intervals"

数据集用途

用于支持论文中关于使用保形预测区间生成个性化反事实示例的研究。

更新状态

数据集将在短期内更新。

搜集汇总

数据集介绍

构建方式

该数据集构建于一个高维超立方体上，旨在为反事实解释和概率预测研究提供基准测试。研究者通过在高维空间中生成高斯分布的聚类样本，构建了一个具有显著类别不平衡（90% vs 10%）的二元分类问题。数据集的构建过程包括：首先确定超立方体的顶点作为聚类中心，然后在每个顶点周围生成服从高斯分布的数据点，最后通过精心设计的类别分配策略引入分类边界的不确定性。这种构造方法使得数据集既保留了高维数据的复杂性，又具备可解释的几何结构。

使用方法

该数据集主要用于评估反事实解释方法和概率预测模型的性能。研究者首先使用60%的数据训练分类器（如XGBoost），20%作为校准集构建共形预测区间，剩余20%作为测试集。在应用层面，数据集支持三种典型使用场景：一是通过可视化决策边界和预测区间来直观分析分类器的不确定性；二是生成基于共形预测区间宽度的反事实样本，用于增强个体对黑盒分类器的理解；三是作为数据增强的基准，通过添加反事实样本来提升模型在测试集上的表现。使用时需注意调整λ参数以平衡反事实样本的邻近性和信息量。

背景与挑战

背景概述

Synthetic data set on a hypercube是由James M. Adams、Gesine Reinert、Lukasz Szpruch、Carsten Maple和Andrew Elliott等研究人员于2025年提出的一种合成数据集，旨在解决机器学习中反事实解释的问题。该数据集的设计基于高维超立方体的顶点，用于模拟复杂的分类边界，特别适用于评估反事实解释方法的有效性。该数据集在金融欺诈检测、医疗决策和信用评分等领域具有重要应用价值，为黑盒模型的可解释性研究提供了重要工具。

当前挑战

该数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，高维特征空间导致反事实解释存在多样性，如何选择最具信息量的反事实实例成为关键挑战。在构建过程中，超立方体数据集的合成需要精确控制类别不平衡和决策边界的复杂度，以确保其能够真实反映现实世界中的复杂分类问题。此外，如何将反事实解释与保形预测区间相结合，以量化个体知识的不确定性，也是该数据集构建过程中的核心挑战。

常用场景

经典使用场景

在机器学习领域，特别是在解释性模型和反事实推理的研究中，Synthetic data set on a hypercube数据集被广泛用于验证和评估算法的性能。该数据集通过在高维超立方体上生成合成数据，能够清晰地展示分类边界和不确定性区域，为研究者提供了一个可控且直观的实验环境。

解决学术问题

该数据集主要解决了机器学习模型在解释性和不确定性量化方面的关键问题。通过提供清晰的决策边界和可调节的预测区间，研究人员能够深入探讨反事实解释的有效性，以及如何利用这些解释来增强模型的可信度和透明度。这对于满足GDPR等法规要求具有重要意义。

实际应用

在实际应用中，该数据集被用于金融欺诈检测、信用评分和医疗诊断等领域。通过生成反事实解释，模型能够为用户提供具体的建议，例如如何调整某些特征以改变分类结果，从而帮助用户理解模型的决策过程并采取相应行动。

数据集最近研究