EPIDEMIOLOGY OF LARGE LANGUAGE MODELS

Name: EPIDEMIOLOGY OF LARGE LANGUAGE MODELS
Creator: 加州大学洛杉矶分校统计与数据科学系,苏黎世联邦理工学院计算机科学系,哥伦比亚大学因果人工智能实验室
Published: 2025-11-05 07:34:52
License: 暂无描述

arXiv2025-11-05 更新2025-11-19 收录

下载链接：

https://github.com/dplecko/llm-epidemia

下载链接

链接失效反馈

官方服务：

资源简介：

EPIDEMIOLOGY OF LARGE LANGUAGE MODELS是一个用于评估大型语言模型（LLMs）在理解现实世界概率分布方面的能力的数据集。该数据集由10个描述美国人口水平统计数据的大型数据集组成，包括健康、健康行为、教育、劳动、消费者支出和犯罪统计数据等。这些数据集被用于测试语言模型是否具有关于人口的知识，并评估LLMs在现实世界分布知识方面的能力。该数据集旨在帮助理解LLMs是否能够内化现实世界的统计数据，并为LLMs在更高层次的能力提供参考。

EPIDEMIOLOGY OF LARGE LANGUAGE MODELS is a dataset developed to evaluate the ability of large language models (LLMs) to comprehend real-world probability distributions. This dataset comprises 10 large-scale datasets describing U.S. population-level statistical data, including health, health behaviors, education, labor, consumer spending, crime statistics and other related categories. These datasets are used to test whether language models possess population-related knowledge, and to assess the capabilities of LLMs in terms of real-world distributional knowledge. This dataset aims to help understand whether LLMs can internalize real-world statistical data, and provide a reference for evaluating the higher-level capabilities of LLMs.

提供机构：

加州大学洛杉矶分校统计与数据科学系,苏黎世联邦理工学院计算机科学系,哥伦比亚大学因果人工智能实验室

创建时间：

2025-11-05

搜集汇总

数据集介绍

构建方式

该数据集通过整合美国人口普查、健康调查、教育统计等十个权威公共数据库，构建了覆盖经济、健康、教育等领域的多维评估框架。研究团队从原始数据中提取变量间的条件概率分布，设计自然语言提问模板，通过系统化采样和概率重构技术建立基准真值分布，形成包含169个任务的标准化测试集。

特点

数据集具备跨领域多维度的显著特性，涵盖从单变量边际分布到五维条件分布的完整概率知识层级。其模块化架构支持灵活扩展新数据集与模型，并通过双重基线校准机制确保评估严谨性。所有任务均基于真实人口统计数据构建，有效避免了合成数据带来的分布偏移问题。

使用方法

使用者可通过标准化提示模板向语言模型发起概率查询，采用问答式或似然式两种策略获取模型预测分布。评估时通过计算预测分布与真实分布的L1距离，结合自助法置信区间确定模型得分。该框架支持开源模型的单指令评估与闭源模型的API批量测试，并提供完整复现指南。

背景与挑战

背景概述

EPIDEMIOLOGY OF LARGE LANGUAGE MODELS数据集由加州大学洛杉矶分校、苏黎世联邦理工学院和哥伦比亚大学Causal AI实验室的研究团队于2025年联合创建，聚焦于评估大语言模型对现实世界概率分布知识的掌握能力。该数据集突破传统事实性知识评估框架，首次系统构建了涵盖经济、健康、教育等领域的观测分布基准，通过结构化因果模型理论验证语言模型是否内化真实人群统计规律，为人工智能系统从感知认知向概率推理的演进提供了关键评估工具。

当前挑战

该数据集需解决大语言模型在观测分布知识评估中的核心挑战：其一是高维概率分布学习的维度灾难问题，传统统计理论表明随着变量维度增加，分布学习难度呈指数级增长；其二是数据构建过程中需协调十类异构人口统计数据集，包括美国社区调查、健康营养监测等权威数据源，在保持统计代表性的同时实现多变量条件分布的标准化映射。此外还需设计兼顾概率提示与问答提示的双重评估框架，以克服模型排序偏差对分布提取的影响。

常用场景

经典使用场景

在人工智能系统评估领域，该数据集构建了首个专门用于检验大语言模型对现实世界概率分布知识掌握程度的基准测试框架。通过整合美国社区调查、健康营养检测、教育就业统计等十个权威数据源，系统评估模型在经济学、公共卫生、教育行为等多维领域中对观测分布的知识表征能力。该数据集采用模块化设计架构，支持对各类语言模型进行零样本能力测试，为理解模型内在概率知识提供了标准化评估范式。

衍生相关工作

该数据集推动了多项重要衍生研究的发展。基于其构建的评估框架，研究者开展了提示策略对比分析，发现概率提示相较问答提示能提升部分模型表现。在模型优化方向，后续研究探索了基于合成数据的微调方法，但结果显示传统微调对提升分布知识作用有限。该工作还启发了对检索增强生成技术在分布知识获取中效用的深入研究，为开发新型知识增强型语言模型提供了理论依据和实践路径。

数据集最近研究