LLM-Rationality-Benchmark
收藏arXiv2025-09-18 更新2025-09-20 收录
下载链接:
https://github.com/tsinghua-fib-lab/LLM-Rationality-Benchmark
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是用于评估大型语言模型(LLMs)的理性程度,涵盖了广泛的领域和LLMs。数据集由清华大学团队创建,旨在为LLMs的开发者和用户提供一个基础评估工具,帮助优化和训练模型,并识别潜在的提升领域。数据集基于对各种理性评价的广泛文献回顾,将理性分为个体、人际和社会三个层面,涵盖了六个理性研究领域的评估。数据集包含了大量的问卷、测试和分析,以揭示LLMs在不同领域的理性程度,并提供了与人类理性的比较、跨领域分析、理论与实践分析、训练方法和模型参数对理性的影响以及个体与集体理性的关系等方面的详细评估结果。
This dataset is developed to evaluate the rationality of Large Language Models (LLMs), covering a wide range of domains and involving various LLMs. Created by a team from Tsinghua University, it aims to provide a foundational assessment tool for both developers and end-users of LLMs, assisting in model optimization, training, and the identification of potential areas for improvement. Built upon a comprehensive literature review of diverse rationality evaluation studies, this dataset categorizes rationality into three dimensions: individual, interpersonal, and social, covering assessments across six research fields of rationality. It comprises a substantial collection of questionnaires, tests and analyses to unveil the rationality performance of LLMs across diverse domains, and delivers detailed evaluation results including comparisons with human rationality, cross-domain analysis, theoretical and practical analyses, the impacts of training methodologies and model parameters on rationality, as well as the correlation between individual and collective rationality.
提供机构:
清华大学
创建时间:
2025-09-18
原始信息汇总
LLM-Rationality-Benchmark 数据集概述
数据集简介
LLM-Rationality-Benchmark 是一个用于评估大型语言模型(LLM)理性能力的基准测试数据集。该数据集涵盖心理学、认知与行为科学、决策理论、经济学以及社会学等多个领域,旨在全面测试LLM的理性表现。
文件结构
文档文件
- SM_measurement_questions.docx:包含基准测试中的所有测量问题,涵盖心理学、认知与行为科学、决策理论、经济学、社会学领域,以及博弈论、合作与协调领域的提示词。
代码目录(./code_release)
代码文件
- Psychology&Cognitive&DecisionMaking&Economics.ipynb:心理学、认知与行为科学、决策理论与经济学领域的测试代码。
- Game_theory&cooperation_coordination.ipynb:博弈论与社会学(合作与协调)领域的测试代码。
- Wisdom_of_crowds.ipynb:社会学(群体智慧)领域的测试代码。
- Analysis_Survey.ipynb:计算心理学、认知与行为科学、决策理论与经济学领域的理性得分。
- Plot_Survey.ipynb、Plot_game_social.ipynb、Plot_domain.ipynb:结果可视化绘图代码。
结果文件
- survey_result.xlsx:LLM对心理学、认知与行为科学、决策理论与经济学领域问题的原始答案。
- survey_analysis.xlsx:LLM在心理学、认知与行为科学、决策理论与经济学领域的理性得分(未标准化)。
- game_results.xlsx:LLM在博弈论与社会学(合作与协调)领域的理性得分(未标准化)。
- domain_results.xlsx:LLM在各领域的总体理性得分。
使用指南
步骤1:运行实验
-
在LLM_setup.py中设置LLM配置。
-
执行命令: bash python run.py
-
或按领域分别运行Jupyter Notebook:
- 心理学、认知与行为科学、决策理论、经济学领域:运行Psychology&Cognitive&DecisionMaking&Economics.ipynb。
- 博弈论、合作与协调、群体智慧领域:运行Game_theory&cooperation_coordination.ipynb和Wisdom_of_crowds.ipynb。
步骤2:结果分析
运行Analysis_Survey.ipynb中的脚本生成理性得分。
步骤3:结果可视化
运行Plot_Survey.ipynb、Plot_game_social.ipynb和Plot_domain.ipynb中的脚本,通过热图可视化结果。
搜集汇总
数据集介绍

构建方式
该数据集通过整合心理学、认知科学、决策理论、经济学、博弈论及社会理性六大领域的经典评估工具构建而成,涵盖理论理性与实践理性两个维度。具体采用标准化问卷与实验任务,如自我反思洞察量表(SRIS)、情绪调节问卷(ERQ)、认知反射测试(CRT)及博弈论中的纳什均衡实验,要求语言模型以参与者身份响应。数据采集通过自动化工具包同步调用开源与商业模型API,确保评估的一致性与可重复性,最终通过归一化评分量化理性水平。
特点
数据集的核心特点在于其多维度性与跨学科覆盖,系统性地融合了人类理性评估的经典范式。其设计不仅包含个体层面的认知偏差检测(如确认偏误、损失厌恶),还扩展至人际互动的博弈场景(如囚徒困境、公共物品博弈)及群体协作的集体理性测量。所有评估指标均基于已验证的心理学与行为经济学量表,保证了数据的科学性与可比性。此外,数据集支持模型间横向对比与人类基准参照,凸显了语言模型在理性表现上的收敛与分化模式。
使用方法
用户可通过标准化工具包调用数据集,输入指定领域的提示词(如心理学问卷或博弈任务),同步获取多个语言模型的响应结果。工具包自动处理响应并生成理性评分,输出形式包括热力图与标准化分数报告,便于跨模型与跨领域的性能比较。开发者可依据结果优化模型训练策略,重点关注理性薄弱环节;应用者则可评估模型在特定场景(如决策辅助或社会模拟)中的可靠性,辅助实际部署的风险管控。
背景与挑战
背景概述
大型语言模型作为深度学习与机器智能领域的前沿突破,近年来展现出接近人类水平的语言理解与生成能力,被视为实现通用人工智能的重要路径。随着模型被广泛应用于人类行为模拟与决策辅助,其理性水平评估成为关键科学问题。清华大学电子工程系与芝加哥大学等机构于2025年联合推出LLM-Rationality-Benchmark,首次构建覆盖心理学、认知科学、经济学等六大学科领域的综合评估体系,通过理论理性与实践理性的双维度测量,为LLM与人类理性对齐提供基础性评估工具。该数据集通过整合经典理性问卷与实验范式,系统性评估了开源与商用模型的理性特征,揭示了模型规模、训练方法对理性表现的影响,为AI安全性研究提供了重要实证基础。
当前挑战
该数据集致力于解决LLM理性评估的标准化问题,其核心挑战在于多学科理性定义的统一建模:需在保持心理学问卷效度的同时适配LLM响应机制,避免人类疲劳效应与模型数据污染对结果的干扰;构建过程中需平衡游戏理论中纳什均衡的数学严谨性与实际交互的复杂性,尤其在多智能体博弈场景中需解决策略协调与效率量化的矛盾;此外,经济决策任务需克服模型对风险偏好表达的固有偏差,而集体理性评估则需设计群体决策与个体理性关联的测量框架。数据污染检测与动态评估基准的构建亦是持续性挑战。
常用场景
经典使用场景
在人工智能与认知科学交叉领域,LLM-Rationality-Benchmark被广泛用于系统评估大语言模型的多维理性能力。该基准通过整合心理学、决策理论、经济学等六个领域的标准化问卷与实验范式,为研究者提供了量化模型理性水平的统一框架。例如,在认知偏差测试中,研究者通过对比模型与人类在基础概率忽视、框架效应等经典任务上的表现,揭示模型理性决策的边界与特性。
实际应用
在现实应用中,该基准为AI代理的部署提供了关键风险评估工具。例如,在医疗诊断辅助系统中,通过测试模型对统计基础概率的敏感性,可筛选出更符合临床理性的模型版本;在金融决策场景中,其对风险偏好与经济偏差的量化能力,能帮助机构选择更稳健的AI顾问。此外,教育领域可利用其情感调节与动机评估模块,开发更具人文关怀的智能导师系统。
衍生相关工作
该基准催生了多领域衍生研究,例如清华大学团队基于其框架开发了社会模拟系统S3,探究多智能体协作中的理性涌现;芝加哥大学结合博弈论模块提出新型集体理性评估指标,推动了群体智能研究。此外,DeepSeek R1、OpenAI o1等推理模型均以该基准为测试标准,促进了理性增强型模型的迭代,相关成果发表于NeurIPS、ICML等顶级会议。
以上内容由遇见数据集搜集并总结生成



