five

rerandomization-benchmarks

收藏
Hugging Face2025-11-22 更新2025-11-23 收录
下载链接:
https://huggingface.co/datasets/cjerzak/rerandomization-benchmarks
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于比较不同硬件后端、问题规模和重随机化规范的模拟基准结果的数据集,旨在评估和比较加速计算在重随机化过程中的性能。数据集包含了设计变量、性能指标、统计诊断和硬件系统元数据等信息。
创建时间:
2025-11-21
原始信息汇总

数据集概述

基本信息

  • 数据集名称: rerandomization-benchmarks
  • 许可证: bigscience-openrail-m
  • 数据规模: 1K<n<10K
  • 标签: synthetic

数据集用途

该数据集包含用于比较以下内容的基于模拟的基准测试结果:

  • 不同硬件后端(M4-CPU、M4-GPU、RTX4090、BaseR、jumble)
  • 不同问题规模(样本量、协变量维度、蒙特卡洛抽样预算、精确与近似线性代数)
  • 不同重新随机化规范(接受概率目标、是否使用基准区间)

文件结构

  • VaryNAndD_main.csv:论文中使用的所有配置的聚合基准测试/模拟结果
  • VaryNAndD_main.parquet:相同表格的Parquet版本(在许多环境中加载更快)

主要列概述

核心设计变量

  • treatment_effect:模拟中使用的恒定处理效应
  • SD_inherent:潜在结果的基线标准差
  • n_units:实验单元总数
  • k_covars:协变量数量
  • prob_accept:目标接受概率
  • maxDraws:候选随机化抽取的最大数量
  • findFI:是否计算基准区间
  • approximate_inv:是否使用近似逆/稳定线性代数
  • Hardware:硬件/实现标签
  • monte_i:蒙特卡洛复制索引

时间和硬件元数据

  • t_GenerateRandomizations:生成随机化池的时间(秒)
  • t_RandomizationTest:基于随机化的推断时间(秒)
  • randtest_time:在某些上下文中重复/便利版本的随机化测试时间
  • sysnamemachinehardware_version:操作系统和机器级元数据
  • nCores:CPU核心数
  • cpuModel:CPU型号名称

数据应用

这些数据用于:

  • 生成运行时基准图(CPU vs GPU vs 基线R / jumble)
  • 计算加速因子和时间减少摘要
  • 输入到论文中的宏命令

使用方式

Python使用

python from datasets import load_dataset ds = load_dataset("cjerzak/rerandomization-benchmarks", split="train")

或使用pandas: python import pandas as pd df = pd.read_csv("VaryNAndD_main.csv")

R使用

r library(data.table) bench <- fread("VaryNAndD_main.csv")

引用信息

bibtex @misc{goldstein2025fastrerandomizefastrerandomizationusing, title = {fastrerandomize: Fast Rerandomization Using Accelerated Computing}, author = {Rebecca Goldstein and Connor T. Jerzak and Aniket Kamat and Fucheng Warren Zhu}, year = {2025}, eprint = {2501.07642}, archivePrefix= {arXiv}, primaryClass = {stat.CO}, url = {https://arxiv.org/abs/2501.07642} }

联系方式

  • 联系人: Connor T. Jerzak
  • 邮箱: connor.jerzak@austin.utexas.edu
  • 问题反馈: 使用fastrerandomize的GitHub仓库问题页面
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过蒙特卡洛模拟方法构建,系统性地评估了不同硬件平台和计算配置下的随机化性能。研究者在多种实验条件下生成随机化分配方案,涵盖样本规模从10到1000个单位、协变量维度在10至1000之间变化的情景,并设置了高达20万次的随机化抽样次数。每个模拟场景均记录了随机化生成时间、统计检验耗时等关键性能指标,同时采集了硬件架构与系统环境元数据,为计算效率比较提供了实证基础。
特点
本数据集的核心特征在于其多维度的比较框架,既包含传统CPU与现代GPU加速计算的横向对比,也涉及精确线性代数与近似算法的效能分析。数据条目详细记录了不同接受概率阈值下随机化方案的统计特性,包括p值分布、置信区间覆盖率和区间宽度等诊断指标。特别值得关注的是,数据集通过标准化硬件标签实现了跨平台性能的等效比较,为计算统计学方法的选择提供了可靠依据。
使用方法
研究者可通过加载CSV或Parquet格式文件直接访问数据集,利用Python中的pandas库或R语言的数据处理包进行解析。典型应用场景包括重现原文中的运行时对比图表,分析不同硬件配置在特定样本规模下的计算效率差异。数据集中完备的元数据支持用户进行分层建模,例如按协变量维度分组考察随机化生成时间的变化规律,或基于蒙特卡罗重复索引构建统计功效曲线。
背景与挑战
背景概述
在因果推断与实验设计领域,随机化分配是确保处理效应无偏估计的核心方法。rerandomization-benchmarks数据集由Goldstein、Jerzak、Kamat与Zhu等研究人员于2025年创建,旨在评估加速计算技术在重随机化算法中的性能表现。该数据集通过系统比较不同硬件平台与算法配置下的计算效率,为优化大规模实验设计提供了实证基础,显著推动了计算统计学与因果推断方法的交叉融合。
当前挑战
重随机化方法需平衡统计精度与计算效率,其核心挑战在于处理高维协变量与大规模样本时算法复杂度的爆炸性增长。构建过程中,研究团队需克服异构硬件架构的适配难题,包括CPU与GPU的并行计算优化、近似线性代数算法的数值稳定性验证,以及跨平台性能指标的统一量化。这些技术瓶颈直接影响了重随机化在现实实验中的可扩展性与实用性。
常用场景
经典使用场景
在因果推断实验设计领域,该数据集通过系统化基准测试框架,为评估不同计算硬件与算法配置下的重随机化性能提供了标准化平台。研究人员可依据实验单元规模、协变量维度及蒙特卡洛抽样次数等参数,精确比较CPU、GPU与METAL等异构计算架构在生成随机化方案时的效率差异,尤其适用于需要平衡计算资源与统计精确度的复杂实验场景。
解决学术问题
该数据集有效解决了高维协变量环境下重随机化算法的计算效率瓶颈问题,通过量化不同硬件加速策略对统计推断质量的影响,为优化实验设计中的计算-精度权衡提供了实证依据。其系统记录的覆盖率、p值分布等诊断指标,显著推进了随机化检验理论在计算统计学领域的规范化发展,填补了传统方法论在应对大规模实验设计时的评估空白。
衍生相关工作
基于该数据集构建的评估范式已催生系列创新研究,包括开发面向分布式计算的动态重随机化算法、构建跨平台性能预测模型等。其提供的标准化度量指标更成为后续研究如jumble包优化的参照基准,推动了统计计算与高性能计算领域的交叉融合,为新一代实验设计软件栈的架构设计奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作