AExGym
收藏arXiv2024-08-08 更新2024-08-12 收录
下载链接:
http://arxiv.org/abs/2408.04531v1
下载链接
链接失效反馈官方服务:
资源简介:
AExGym是由哥伦比亚大学开发的一个开源软件包,旨在为实验者提供一个易于评估和开发算法的平台。该数据集包含240个设置,涉及多个实际挑战,如批量反馈、非平稳性、多目标和结果等。数据集的创建过程结合了现实世界的数据,如ASOS.com数据集和多个现场实验数据。AExGym主要应用于改进静态实验设计,通过引入几轮适应性来提高实验效率,特别是在A/B测试领域。
AExGym is an open-source software package developed at Columbia University, designed to provide experimenters with a user-friendly platform for algorithm evaluation and development. This dataset includes 240 settings covering a range of real-world challenges such as batch feedback, non-stationarity, multi-objective scenarios, and outcome-related issues. The dataset is constructed by incorporating real-world data sources including the ASOS.com dataset and multiple field experimental datasets. AExGym is primarily applied to improve static experimental design, enhancing experimental efficiency by introducing several rounds of adaptivity, particularly in the domain of A/B testing.
提供机构:
哥伦比亚大学
创建时间:
2024-08-08
搜集汇总
数据集介绍

构建方式
AExGym数据集的构建基于现实世界的数据集,旨在突出实际应用中自适应实验的挑战。该数据集的构建考虑了非平稳性、批量/延迟反馈、多个结果和目标以及外部有效性等因素。数据集的构建旨在促进方法论的发展,将实际性能(如鲁棒性)作为核心关注点,而不仅仅是数学上对特定实例的保证。AExGym提供了一个开源库,旨在以模块化和可扩展性为设计理念,允许实验实践者开发和基准化自定义环境和算法。
特点
AExGym数据集的特点包括:1. 现实世界数据:数据集基于真实世界的实验数据,反映了实际应用中的挑战。2. 多样性:数据集涵盖了多种实验环境和挑战,包括非平稳性、批量/延迟反馈、多个结果和目标以及外部有效性等。3. 模块化和可扩展性:AExGym提供了一个开源库,允许实验实践者开发和基准化自定义环境和算法。4. 实用性:数据集的构建旨在促进方法论的发展,将实际性能(如鲁棒性)作为核心关注点,而不仅仅是数学上对特定实例的保证。
使用方法
AExGym数据集的使用方法如下:1. 下载和安装AExGym库。2. 创建环境和代理:使用AExGym库创建自定义环境和代理,代理可以是自适应实验算法。3. 运行实验:使用AExGym库运行实验,记录实验结果。4. 评估和基准化:使用AExGym库提供的评估指标对实验结果进行评估和基准化。
背景与挑战
背景概述
AExGym是一个基于现实世界数据集的适应性实验基准,由哥伦比亚大学计算机科学系、哥伦比亚商学院决策、风险与运营部门以及Meta大学匹兹堡分校的研究人员共同开发。该数据集旨在推动适应性实验方法论的发展,将实际性能(如鲁棒性)作为核心关注点,而非对理想实例的数学保证。AExGym的开源库旨在通过模块化和可扩展性,让实验实践者能够开发并基准测试自定义环境和算法。AExGym的数据集背景概述了在科学和工业领域,创新是通过随机试验(即A/B测试)进行评估的。然而,这种静态设计在测试多个假设时效率低下或不可行。适应性设计理论上可以大大提高统计功效,但由于其在实践中的脆弱性,其采用率有限。AExGym强调了将适应性付诸实践的显著挑战,包括非平稳性、批量/延迟反馈、多个结果和目标以及外部有效性。
当前挑战
AExGym数据集面临的挑战包括:1)在现实世界中,实验结果往往在大批量(或“波”)中测量,这是由于延迟反馈和实际更新治疗分配的成本造成的;2)环境遭受重大、自然发生的非平稳性,例如每周的影响,传统的适应性算法在这种情况下会失败;3)实践者需要在多个结果下平衡这些目标,例如在多种约束条件下收集足够的样本以进行后实验推断;4)在评估不同治疗时,实验者很少关心单一结果变量,而必须同时平衡几个结果之间的权衡;5)除了对实验人群的内部有效性外,研究人员还希望具有外部有效性,即能够将研究结果推广到更广泛的群体。AExGym框架旨在促进归纳方法的发展,这些方法能够解决实践中出现的众多挑战,并为其性能提供坚实的实证证据。
常用场景
经典使用场景
AExGym数据集主要应用于自适应实验的领域,旨在通过动态调整资源分配来提高实验的统计功效。该数据集通过模拟现实世界中的实验环境,帮助研究者评估和开发能够在实际应用中表现出色的自适应实验算法。AExGym支持多种实验场景,包括批处理反馈、非平稳性、多目标和结果、约束以及外部有效性等,为自适应实验提供了全面的基准测试平台。
解决学术问题
AExGym数据集解决了传统A/B测试设计中存在的静态性和低效性问题。通过引入自适应设计,AExGym能够在实验过程中根据数据动态调整策略,从而在理论上显著提高统计功效。此外,AExGym还关注算法在实际应用中的鲁棒性和性能,而非仅仅追求理想化场景下的数学保证。该数据集的提出对于推动自适应实验方法的发展具有重要意义,并为实验者提供了评估和选择合适自适应实验算法的实证基础。
衍生相关工作
AExGym数据集的提出引发了学术界和工业界对自适应实验方法的广泛关注。基于AExGym数据集,研究者们开发了一系列新的自适应实验算法,并取得了显著的成果。例如,一些研究者开发了能够处理非平稳性和批处理反馈的自适应算法,而另一些研究者则关注于如何解决多目标和结果以及约束等问题。此外,一些工业界公司也基于AExGym数据集开发了自适应实验平台,为实验者提供了更加便捷和高效的实验工具。
以上内容由遇见数据集搜集并总结生成



