CBT-Bench|认知行为疗法数据集|大型语言模型数据集
收藏CBT-Bench Dataset
概述
CBT-Bench 是一个用于评估大型语言模型(LLMs)在辅助认知行为疗法(CBT)中熟练程度的基准数据集。数据集分为三个层次,每个层次关注 CBT 的不同关键方面,包括基础知识背诵、认知模型理解和治疗响应生成。目标是评估 LLMs 在专业心理健康护理各个阶段的支持能力,特别是 CBT。
数据集结构
数据集分为三个主要层次,每个层次包含特定任务:
第一层:基础 CBT 知识获取
- 数据集: CBT-QA (
qa_test.json
) - 描述: 包含 220 个与 CBT 概念、实用知识、案例研究等相关的多项选择题。
qa_seed.json
包含用于训练或上下文学习的保留示例。由于这些是 CBT 考试问题,目前无法披露答案。未来,我们可能会考虑将其转化为排行榜。
第二层:认知模型理解
- 数据集:
- CBT-CD (
distortions_test.json
) (认知扭曲分类): 146 个认知扭曲示例,分为十类,如全有或全无思维、个人化、读心术等。 - CBT-PC (
core_major_test.json
) (主要核心信念分类): 184 个示例分为三个核心信念(无助、不可爱、无价值)。 - CBT-FC (
core_fine_test.json
) (细粒度核心信念分类): 112 个示例进一步分为 19 个细粒度核心信念类别。 distortions_seed.json
,core_major_seed.json
, 和core_fine_seed.json
包含用于训练或上下文学习的保留示例。
- CBT-CD (
第三层:治疗响应生成
- 数据集: CBT-DP (
CBT-DP/
) - 描述: 包含 156 个练习,分为十个关键的 CBT 会话方面,涵盖各种治疗场景,难度逐渐增加。除了人类参考外,我们还发布了模型生成内容。
引用
@misc{zhang2024cbtbenchevaluatinglargelanguage, title={CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy}, author={Mian Zhang and Xianjun Yang and Xinlu Zhang and Travis Labrum and Jamie C. Chiu and Shaun M. Eack and Fei Fang and William Yang Wang and Zhiyu Zoey Chen}, year={2024}, eprint={2410.13218}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.13218}, }

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Pubmed
Pubmed 数据集包含来自 PubMed 数据库的 19717 篇与糖尿病相关的科学出版物,分为三类之一。引文网络由 44338 个链接组成。数据集中的每个出版物都由字典中的 TF/IDF 加权词向量描述,该字典由 500 个唯一词组成。
OpenDataLab 收录
K-Lane
K-Lane是世界上首个也是最大的公共城市道路和高速公路激光雷达车道数据集,包含超过1.5万个帧,涵盖了多达六个车道的标注,适应于多种道路和交通条件,如多级遮挡道路、白天和夜晚道路、合并(收敛和发散)以及弯曲车道。
arXiv 收录
Frankfort, Frankfort Dow Memorial Field Airport, MI (KFKS)
Timeseries data from \'Frankfort, Frankfort Dow Memorial Field Airport, MI (KFKS)\' (gov_noaa_awc_kfks)cdm_data_type = TimeSeriesVARIABLES:time (seconds since 1970-01-01T00:00:00Z)latitude (degrees_north)longitude (degrees_east)z (Altitude, m)dew_point_temperature (Dew Point, degree_Celsius)dew_point_temperature_qc_agg (Dew Point QARTOD Aggregate Quality Flag)dew_point_temperature_qc_tests (Dew Point QARTOD Individual Tests)air_temperature (degree_Celsius)air_temperature_qc_agg (Air Temperature QARTOD Aggregate Quality Flag)air_temperature_qc_tests (Air Temperature QARTOD Individual Tests)visibility_in_air (Visibility, m)visibility_in_air_qc_agg (Visibility QARTOD Aggregate Quality Flag)visibility_in_air_qc_tests (Visibility QARTOD Individual Tests)wind_speed_of_gust (Wind Gust, m.s-1)wind_speed_of_gust_qc_agg (Wind Gust QARTOD Aggregate Quality Flag)wind_speed_of_gust_qc_tests (Wind Gust QARTOD Individual Tests)wind_speed (m.s-1)wind_speed_qc_agg (Wind Speed QARTOD Aggregate Quality Flag)wind_speed_qc_tests (Wind Speed QARTOD Individual Tests)wind_from_direction (degrees)wind_from_direction_qc_agg (Wind From Direction QARTOD Aggregate Quality Flag)wind_from_direction_qc_tests (Wind From Direction QARTOD Individual Tests)station (Frankfort, Frankfort Dow Memorial Field Airport, MI (KFKS))
ERDDAP 收录
LogiQA
LogiQA 包含 8,678 个 QA 实例,涵盖多种类型的演绎推理。结果表明,最先进的神经模型的性能远远低于人类天花板。该数据集还可以作为在深度学习 NLP 设置下重新研究逻辑 AI 的基准。
OpenDataLab 收录