Health Insurance Decision-Making Dataset
收藏arXiv2025-10-08 更新2025-10-09 收录
下载链接:
https://github.com/TeX-Base/ClassicalAIvsLLMs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集模拟了个人在不确定的情况下选择健康保险计划时所面临的困境,包含来自真实计划规范的20个成本相关的探测问题,每个问题都与整数美元金额的替代计划选项配对。决策者行为由两个认知属性描述:风险容忍度和选择,每个属性都标记为高或低,产生四种可能的组合。数据集还包括家庭组成、医疗历史、就业类型和生活方式因素等上下文特征,以描述场景。每个实例包括四个计划选项,一个标记的属性和与目标决策者对齐的真实选择。数据集旨在训练和评估算法决策者,用于决策者对齐研究。
This dataset simulates the dilemmas encountered by individuals when selecting health insurance plans under uncertainty. It contains 20 cost-related probing questions sourced from real health insurance plan specifications, with each question paired against alternative plan options denominated in whole US dollar amounts. Decision-maker behavior is defined by two cognitive attributes: risk tolerance and choice preference, each categorized as either high or low, yielding four distinct combinations. The dataset also incorporates contextual features such as household composition, medical history, employment type, and lifestyle factors to fully describe the decision-making scenarios. Each instance includes four plan options, one labeled attribute, and the ground-truth choice aligned with the target decision-maker. This dataset is designed to train and evaluate algorithmic decision-makers for research on decision-maker alignment.
提供机构:
Drexel University, Philadelphia, PA 19104 USA; Parallax Advanced Research, Beavercreek, OH 45431 USA; Knexus Research, National Harbor, Oxon Hill, MD 20745USA
创建时间:
2025-10-08
搜集汇总
数据集介绍

构建方式
在健康保险决策研究领域,该数据集通过模拟现实世界中的保险计划选择场景构建而成。其基础源自真实保险规格参数,涵盖自付额、共付比例和年度最高支出等20项成本相关指标,每个场景均配置四种整数形式的计划选项。数据采集过程整合了家庭结构、医疗历史与职业类型等多维上下文特征,并采用回归神经网络对风险容忍度属性进行量化标注,最终形成包含17,400个独立决策探针的标准化评估框架。
特点
该数据集的核心特征体现在其精细化的认知属性建模体系。通过定义三类具有明确风险容忍度阈值(0.0/0.5/1.0)的目标决策者画像,系统捕捉了人类在不确定性环境中的决策差异。数据结构融合了离散选择与连续认知维度,每个决策实例不仅包含保险方案的经济参数,还关联着决策者的家庭医疗背景与生活方式特征,这种多模态设计为研究认知属性与决策行为的交互机制提供了理想实验场域。
使用方法
在算法决策者对齐研究中,该数据集可作为基准测试平台驱动模型优化。使用者可通过加载标准化数据接口,分别输入三类目标决策者的风险属性参数,系统将自动生成对应的对齐评估指标。实验过程中需遵循零样本提示框架,结合加权自一致性采样机制,对古典人工智能与基于大语言模型的决策系统进行并行验证。该流程支持跨模型对齐精度的量化比较,为认知属性驱动的算法设计提供实证依据。
背景与挑战
背景概述
健康保险决策数据集由德雷塞尔大学与Parallax Advanced Research、Knexus Research等机构的研究团队于2025年联合创建,旨在解决高风险领域算法决策者与人类认知属性的对齐问题。该数据集通过模拟真实保险计划选择场景,包含家庭构成、医疗历史等上下文特征,并标注了不同风险容忍度决策者的选择模式,为研究基于案例推理的经典AI方法与大型语言模型在决策对齐中的表现提供了标准化评估基准。
当前挑战
该数据集核心挑战在于如何精准建模人类决策者在不确定条件下的风险偏好连续性,特别是对中度风险容忍度(0.5)的语义表征与对齐。构建过程中需克服标注一致性难题,即如何通过有限离散标签(0, 0.5, 1)还原连续风险谱系,同时确保自然语言提示能有效区分细微认知差异。此外,数据冗余消除与多目标场景下的对齐验证也构成了技术实施的重要障碍。
常用场景
经典使用场景
在医疗健康保险决策研究领域,该数据集被广泛用于模拟个体在不确定性环境下选择保险方案的行为模式。通过包含保费、自付额、共付比例等20项成本相关指标,以及家庭结构、医疗史等背景特征,研究者能够系统分析不同风险偏好对决策结果的影响,为认知科学与行为经济学提供实证基础。
实际应用
在保险科技领域,该数据集支撑了个性化保险推荐系统的开发。通过解析不同风险偏好用户的决策逻辑,保险公司可构建自适应算法,为保守型、均衡型及冒险型客户提供精准匹配的保险方案,显著提升产品服务的个性化水平与用户满意度。
衍生相关工作
基于该数据集衍生的经典研究包括Molineaux等人提出的案例推理框架与Hu等人开发的加权自洽算法。前者通过蒙特卡洛模拟与贝叶斯推理构建决策案例库,后者利用零样本提示与负采样机制实现大语言模型的对齐优化,共同推动了多模态决策对齐方法的发展。
以上内容由遇见数据集搜集并总结生成



