OpenEstimate

github2025-10-17 更新2025-10-24 收录

下载链接：

https://github.com/alanarenda/openestimate

下载链接

链接失效反馈

官方服务：

资源简介：

OpenEstimate是一个多领域基准测试，用于评估语言模型在概率估计方面的能力，包含医疗保健、就业和金融三个领域的数据集：NHANES（国家健康与营养调查数据，包含健康指标和人口统计信息）、Glassdoor（公司和就业数据，包含薪资和职场指标）、PitchBook（初创企业和风险投资数据，包含融资轮次和估值指标）。每个数据集都包含从观测数据计算得到的真实分布、自然语言变量描述以及不同复杂度的条件信息。

OpenEstimate is a multi-domain benchmark designed to evaluate the probability estimation capabilities of language models, covering three domains: healthcare, employment and finance. The datasets included are NHANES (National Health and Nutrition Examination Survey, which contains health indicators and demographic information), Glassdoor (corporate and employment data including salary and workplace metrics), and PitchBook (startup and venture capital data covering financing rounds and valuation metrics). Each dataset provides ground-truth distributions calculated from observational data, natural language variable descriptions, and conditional information with varying levels of complexity.

创建时间：

2025-10-17

原始信息汇总

OpenEstimate 数据集概述

数据集简介

OpenEstimate是一个多领域基准测试集，专门用于评估语言模型在概率估计方面的能力，这是不确定性下推理的一种特定形式。

核心目标

评估语言模型在概率推理方面的表现
测试模型将背景知识合成为准确、校准良好的贝叶斯先验的能力
关注模型处理不完整信息和量化不确定性的能力

包含数据集

🏥 NHANES（医疗健康）

领域：医疗健康
数据来源：国家健康与营养检查调查
变量类型：健康结果、生物标志物、生活方式因素

💼 Glassdoor（就业）

领域：就业
数据来源：公司和就业数据
变量类型：薪酬、公司特征、职位角色

💰 PitchBook（金融）

领域：金融
数据来源：初创公司和风险投资数据
变量类型：融资额、估值、公司增长指标

数据集特性

基于观测数据计算的真实分布
自然语言变量描述
不同复杂度的条件信息（1-3个条件）

评估设计

启发协议

直接法：模型直接指定分布参数（均值、方差）
分位数法：模型提供分位数，拟合到分布
均值-方差法：模型分别估计均值和方差

系统提示

基础：具有领域专业知识的中立助手
保守型：明确指示提供保守估计
超级预测者：遵循预测最佳实践

评估指标

平均绝对误差（MAE）：点估计准确性
期望校准误差（ECE）：概率预测的校准
不确定性-准确性相关性：不确定性估计与预测准确性之间的关系

分布类型

高斯/正态分布：无界连续变量
Beta分布：有界连续变量（如比例）

基准对比

将语言模型获取的先验与统计基线进行比较，通过从真实分布中采样N个示例，并用这些示例更新无信息先验来计算。

主要发现

语言模型获取的先验通常不准确且过于自信
不同启发协议仅带来适度改进
采样策略、推理努力或提示设计的改变影响有限

引用信息

bibtex @article{openestimate2024, title={OpenEstimate: A Benchmark for Evaluating Language Models on Probabilistic Estimation}, author={[Authors]}, journal={[Venue]}, year={2024}, url={https://github.com/your-username/openestimate} }

搜集汇总

数据集介绍

构建方式

在人工智能语言模型评估领域，OpenEstimate数据集通过整合多领域真实观测数据构建而成，涵盖医疗健康、就业市场与金融投资三大核心板块。其构建流程依托美国国家健康与营养调查的医疗指标、Glassdoor平台的薪酬统计数据以及PitchBook的创投交易记录，采用贝叶斯统计方法从原始数据中推导出真实概率分布作为基准真值。每个变量均配备自然语言描述及1-3层条件约束信息，通过自动化管道实现变量生成、后验计算与基线先验的标准化处理。

特点

该数据集最显著的特征在于其针对概率推理能力的多维度评估框架。它不仅包含传统准确率指标，更引入预期校准误差等不确定性量化指标，能同步评估语言模型的点预测精度与概率校准质量。数据集支持高斯分布和贝塔分布等多种概率模型，适配连续变量的不同数值边界特性。通过设计保守型、超级预测者等差异化专家角色提示模板，系统检验语言模型在不同认知风格下的表现稳定性。

使用方法

使用者可通过模块化实验流程开展评估研究，首先生成包含不同诱发协议与采样策略的实验规范文件，继而调用标准化脚本运行跨数据集测试。分析模块提供模型对比与消融研究功能，支持自定义可视化输出。研究人员可依据数据规范扩展新领域数据集，利用现有的先验拟合方法与评估指标体系，快速构建针对特定场景的概率推理基准测试。

背景与挑战

背景概述

在人工智能语言模型快速发展的背景下，2024年推出的OpenEstimate数据集由麻省理工学院等研究机构主导开发，聚焦于概率估计这一关键推理能力。该数据集针对医疗健康、金融投资和就业市场等多领域的不确定性量化问题，通过整合NHANES健康调查、Glassdoor薪酬数据和PitchBook创投数据，构建了首个系统评估语言模型概率推理能力的基准平台。其创新性在于将传统贝叶斯统计理论与现代大语言模型相结合，为衡量模型在真实场景中的知识合成与不确定性校准能力提供了重要范本。

当前挑战

该数据集致力于解决语言模型在概率推理领域的核心难题：如何将隐式知识转化为准确校准的概率分布。具体挑战包括模型生成的先验分布常出现系统性偏差与过度自信问题，不同启发协议对性能提升有限，且采样策略与提示设计的优化效果存在边际递减。在构建过程中，需克服多源异构数据的标准化处理难题，设计能平衡统计严谨性与自然语言表达的变量描述体系，并建立适用于连续变量的高斯分布与贝塔分布的双重评估框架。

常用场景

经典使用场景

在不确定性推理研究领域，OpenEstimate作为多领域基准测试集，其经典应用场景聚焦于评估语言模型在概率估计任务中的表现。该数据集通过医疗健康、就业市场和金融投资三大真实领域的数据，要求模型基于不完整信息合成背景知识，生成准确且校准良好的贝叶斯先验分布，从而系统检验模型在复杂现实情境下的概率推理能力。

解决学术问题

该数据集有效解决了语言模型在不确定性量化研究中的关键瓶颈。传统评估多集中于答案明确的结构化问题，而OpenEstimate通过设计概率推理、知识合成与校准评估三位一体的框架，填补了模型在非确定性环境下认知能力评估的空白。其创新性地将先验质量量化为准确度与校准度的双重指标，为理解模型认知边界提供了理论工具。

衍生相关工作

基于该数据集的研究已催生多类创新工作。在方法层面，衍生出直接参数估计、分位数拟合与均值-方差分离等新型概率启发协议；在评估体系方面，推动了预期校准误差与不确定度-准确度关联分析等度量标准的发展；更有研究受其启发，开发了保守型预测者、超级预测者等专业角色提示框架，深化了人机协同决策的研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集