psybench

arXiv2023-11-17 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2311.09861v2

下载链接

链接失效反馈

官方服务：

资源简介：

psybench是由浙江大学和西湖大学工程学院联合创建的全面中文评估套件，专注于心理学领域，旨在通过多选题深入评估模型的强弱点。该数据集包含12个本科级别的心理学核心科目，共4573条数据，依据中国科学院心理研究所举办的心理咨询师综合考试（CEPC）和国家研究生入学考试（NEEP）的知识点生成。数据集通过GPT-4生成问题，并由专业心理学家审核确保准确性。psybench的应用领域主要集中在心理学，旨在解决模型评估中的知识不平衡问题，提供更可靠的模型性能评估。

psybench is a comprehensive Chinese evaluation suite jointly developed by the School of Engineering of Zhejiang University and Westlake University, focusing on the field of psychology. It aims to thoroughly evaluate the strengths and weaknesses of models through multiple-choice questions. This dataset covers 12 undergraduate-level core psychology courses and contains 4,573 entries, which are generated based on the knowledge points from the Chinese Psychological Counselor Comprehensive Examination (CEPC) and the National Postgraduate Entrance Examination (NEEP) hosted by the Institute of Psychology, Chinese Academy of Sciences. The questions are generated by GPT-4 and reviewed by professional psychologists to ensure their accuracy. Primarily applied in the field of psychology, psybench aims to address the issue of knowledge imbalance in model evaluation and provide more reliable assessments of model performance.

提供机构：

浙江大学西湖大学工程学院

创建时间：

2023-11-16

搜集汇总

数据集介绍

构建方式

在心理学专业评估领域，PsyBench的构建遵循了严谨的学术框架。该数据集以中国研究生入学考试（NEEP）及中国科学院心理研究所心理咨询师综合考试（CEPC）的知识点体系为基准，精心筛选了12门心理学本科核心课程。其构建过程采用了基于GPT-4的半自动化生成框架：首先将权威考试大纲中的具体知识点输入模型，并辅以四种精心设计的提示模板（如计算题、理论理解题、案例分析题等）来引导生成多样化的单项选择题。每个知识点初始生成四道题目，随后由专业心理咨询师团队进行严格审核，确保题目的准确性、合理性以及与知识点的匹配度，最终形成高质量、平衡覆盖各知识领域的试题集合。

使用方法

该数据集旨在为大型语言模型在心理学领域的专业能力提供标准化评估。使用者通常采用零样本或少量样本的提示学习设置进行评测。在具体操作中，评估者将心理学选择题以特定格式输入待测模型，要求模型直接输出选项（A、B、C、D）。提示模板可包含任务定义，在少量样本设置下会额外提供数道示例题目及其答案以引导模型。通过计算模型在所有题目上的平均分类准确率，可以量化模型对不同心理学子领域的掌握程度，并细致分析其知识强项与薄弱环节。PsyBench提供的验证集和测试集支持开发者进行模型迭代与性能诊断，其平衡的知识点设计有助于获得更稳定、无偏的模型能力评估。

背景与挑战

背景概述

随着大型语言模型在专业领域的广泛应用，对涵盖学科核心知识的评估基准需求日益迫切。PsyBench作为首个全面的中文心理学评估基准，由浙江大学与西湖大学的研究团队于2023年联合创建，旨在系统评估基础模型在心理学领域的专业能力。该基准严格参照中国研究生入学考试与心理咨询师资格认证的知识体系，覆盖12门心理学核心课程，通过生成式方法构建了超过4500道选择题，为模型提供了深度且均衡的专业知识评估框架。其创新性的半自动化构建流程与对知识点的全面覆盖，显著提升了评估结果的可靠性与领域适应性，为心理学领域的大模型应用提供了重要的基准工具。

当前挑战

PsyBench致力于解决心理学领域大模型评估中的两大核心挑战：一是传统基准在专业知识覆盖上存在广度与深度的失衡，导致评估结果因知识点分布不均而产生偏差；二是公开数据集易导致数据泄露，使模型性能评估失真。在构建过程中，研究团队面临生成式方法的质量控制难题，需通过专业心理咨询师对GPT-4生成的题目进行多轮审核，确保知识准确性、题型多样性与选项合理性。同时，维持知识点全面覆盖与周期性更新的平衡，亦是保障评估效度与时效性的关键挑战。

常用场景

经典使用场景

在心理学与自然语言处理的交叉领域，PsyBench数据集被广泛用于评估大型语言模型在专业心理学知识上的掌握程度。该数据集通过覆盖心理学本科核心课程及心理咨询师资格考试的必备知识点，构建了一个全面且平衡的评估框架。研究者通常利用PsyBench中的多项选择题，在零样本或少样本设置下测试模型的分类准确率，从而深入分析模型在不同心理学分支（如心理测量学、人格心理学等）中的表现差异，揭示其知识结构的优势与薄弱环节。

解决学术问题

PsyBench主要解决了当前大模型评估中存在的知识覆盖不均与数据泄露两大核心问题。传统基准往往侧重于学科的广度而忽视深度，导致模型表现评估出现偏差；PsyBench则依据研究生入学考试的知识点体系，确保了每个心理学主题下关键内容的均衡覆盖。同时，其采用基于GPT-4的半自动题目生成框架，配合专业心理咨询师的审核机制，能够定期更新未公开的测试题目，有效缓解了因固定公开数据集带来的数据泄露风险，从而提升了评估结果的可靠性与科学性。

实际应用

在实际应用中，PsyBench为心理学领域的教育技术与智能化工具开发提供了重要的评估标准。例如，在开发用于心理咨询培训的AI辅助系统时，可以利用该数据集检验模型对临床心理学、异常心理学等专业知识的理解深度，确保其输出的建议符合专业规范。此外，高等教育机构能够借助PsyBench评估智能教学系统在心理学课程中的辅导能力，优化个性化学习路径的设计，从而推动心理学教育与人工智能技术的深度融合。

数据集最近研究