CAPphrase

github2026-03-02 更新2026-03-07 收录

下载链接：

https://github.com/adamkucharski/CAPphrase

下载链接

链接失效反馈

官方服务：

资源简介：

比较和绝对概率短语数据集，基于一个由Adam Kucharski创建的独立项目的在线测验。数据集包含来自5,174名测验参与者的预处理CSV文件，用于分析。数据集包括比较估计、绝对估计和个体元数据三个部分。

Comparative and Absolute Probability Phrase Dataset. Based on an online quiz from an independent project created by Adam Kucharski, this dataset contains preprocessed CSV files from 5,174 quiz participants for analytical purposes, and it consists of three components: comparative estimates, absolute estimates, and individual metadata.

创建时间：

2026-02-17

原始信息汇总

CAPphrase数据集概述

数据集基本信息

数据集名称：CAPphrase（Comparative and Absolute Probability phrase dataset）
数据来源：基于由Adam Kucharski创建的独立项目——在线测验
数据规模：包含5,174名测验参与者的数据
DOI：10.5281/zenodo.18750055
许可证：CC-BY (https://creativecommons.org/licenses/by/4.0/)
发布日期：2026年2月

数据集内容

数据集包含三个预处理好的CSV文件，位于data/文件夹中。

1. 比较性估计数据：`pairwise_comparisons.csv`

列名	描述
`response_id`	唯一的受访者标识符
`pair_id`	受访者会话中的配对序列号（1-10）
`term1`	显示的第一个概率短语
`term2`	显示的第二个概率短语
`selected`	受访者选择为更高概率的短语

2. 绝对估计数据：`absolute_judgements.csv`

列名	描述
`response_id`	唯一的受访者标识符
`term`	概率短语
`probability`	数值估计（0-100）
`order`	该短语对受访者的呈现顺序

3. 个体元数据：`respondent_metadata.csv`

列名	描述
`response_id`	唯一的受访者标识符
`timestamp`	提交月份（YYYY-MM）
`age_band`	自我报告的年龄区间（例如"25-34"）
`english_background`	英语语言背景
`education_level`	最高教育水平
`country_of_residence`	居住国家

数据收集方法

测验在一个会话中分三部分进行：

第一部分：成对比较。向受访者展示成对的概率短语，并询问哪个短语传达更高的概率。每个受访者看到10对（9个唯一对 + 1个重复对用于内部一致性检查）。
第二部分：绝对概率估计。受访者为19个概率短语中的每一个输入一个数值（0-100%）。每个受访者的呈现顺序是随机的。
人口统计信息。关于年龄区间、英语语言背景、教育水平和居住国家的可选问题。

所有数据都是匿名收集的；测验网站不收集任何个人数据（例如IP地址、设备标识符、浏览器指纹或位置数据）。

随机化过程

从19个术语中，随机抽取18个（小于等于19的最大偶数）。
18个术语被打乱并顺序配对，产生9个唯一的配对。
在每个配对中，左/右顺序是随机的。
第10个配对重复第一个配对，但术语交换，提供内部一致性检查。
第二部分短语的呈现顺序对每个受访者是独立随机的。

异常值移除

在分析之前，移除那些与其术语平均值相差超过4个标准差的响应。这可以防止对某些解释范围较窄的短语（例如将"Highly Unlikely"误解为"Highly Likely"）的误读，同时不影响那些在解释上有很多可变性的短语（例如"Might happen"）。

分析脚本

所有脚本都位于R/文件夹中，并通过run_all.R运行。

脚本	描述	关键输出
`00_setup.R`	加载预处理数据，设置绘图样式	`df_raw`, `df_wide`, `df_pairwise`
`01_probability_words.R`	每个术语的概率估计分布	`01_*.png`
`02_inconsistent_pairs.R`	成对一致性热力图 + 第1部分与第2部分的不一致性	`02_.png`, `02b_.png`
`02c_pairwise_disagreement.R`	受访者之间在成对选择上的分歧	`02c_*.png`
`03_position_effect.R`	呈现位置/顺序效应	`03_*.png`
`06_demographics_and_pairs.R`	人口统计表 + 配对频率摘要	`06_*.png`, CSV表格
`07_individual_patterns.R`	个体层面的响应模式	`07_*.png`
`08b_demographic_effects_position.R`	同上，包含列表位置效应	`08_*_position.png`

相关资源

可视化和初步分析：https://adamkucharski.github.io/CAPphrase/
关于概率判断历史的博客文章：https://kucharski.substack.com/p/possibly-a-serious-possibility

搜集汇总

数据集介绍

构建方式

在概率判断研究领域，CAPphrase数据集的构建依托于一项精心设计的在线测验。该测验由Adam Kucharski独立发起，通过匿名方式收集了5,174名参与者的反馈。数据采集过程分为三个有序部分：首先进行概率短语的成对比较，参与者需在随机呈现的短语对中选择概率更高者；随后进行绝对概率估计，要求参与者为19个概率短语赋予0至100的数值；最后邀请参与者自愿提供人口统计学信息。为确保数据质量，研究采用了内部一致性检验与基于标准差阈值的异常值剔除策略。

特点

该数据集的核心特点在于其双重视角的设计，同时囊括了比较性估计与绝对性估计两类数据，为探究概率短语的主观理解提供了多维度的分析基础。数据集涵盖了19个常见概率短语，并通过随机化呈现顺序与配对方式，有效控制了顺序效应等潜在偏差。此外，数据集附带了丰富的人口统计学元数据，如年龄分段、教育背景与居住国，使得研究者能够深入分析社会文化因素对概率判断的影响。所有数据均经过预处理，以结构清晰的CSV格式呈现，便于直接用于统计分析。

使用方法

研究者可利用数据集进行概率认知的定量分析，例如探究不同短语在人群中的数值分布规律，或比较成对选择与绝对估计之间的一致性。配套的R分析脚本提供了完整的分析流程，从数据载入、可视化到统计检验，用户可通过运行主脚本复现全部分析结果。数据集遵循CC-BY许可协议，允许在注明出处的前提下自由使用、共享与改编，适用于心理学、风险沟通、自然语言处理等多个交叉学科的研究与应用场景。

背景与挑战

背景概述

在概率认知与风险沟通领域，人们对概率短语的主观解读存在显著差异，这直接影响决策制定与信息传递的准确性。CAPphrase数据集由Adam Kucharski于2026年创建，基于其独立开发的在线测验，旨在系统收集公众对常见概率表述的比较性与绝对性判断数据。该数据集涵盖了来自5,174名参与者的反馈，通过精心设计的随机化流程与异常值处理，为探究语言概率的量化理解、个体认知偏差及跨文化差异提供了实证基础，对心理学、行为经济学及数据可视化研究具有重要参考价值。

当前挑战

CAPphrase数据集致力于解决概率短语主观量化这一核心问题，其挑战在于如何准确捕捉并建模人们在模糊概率表述上的认知差异，例如对“可能发生”与“不太可能”等短语的数值估计往往呈现高度分散性。在构建过程中，研究者需克服实验设计的复杂性，包括随机配对策略的实施、内部一致性检验的嵌入，以及异常响应的识别与剔除，以确保数据质量并减少顺序效应等混淆因素的影响。

常用场景

经典使用场景

在概率认知与风险沟通领域，CAPphrase数据集为探究人类如何理解和量化概率短语提供了关键实证基础。该数据集通过大规模在线实验，收集了参与者对19个常见概率短语的绝对数值估计和成对比较判断，典型应用场景包括分析不同人群对“可能”、“不太可能”等模糊概率术语的主观解读差异，从而揭示语言表达与概率认知之间的映射关系。

解决学术问题

该数据集有效解决了概率判断研究中的核心问题，即模糊概率短语的量化不一致性如何影响决策与沟通。通过提供结构化的比较与绝对估计数据，研究者能够系统评估概率术语的歧义程度，检验认知偏差如顺序效应或个体差异，进而推动概率语言学与行为科学的发展，为标准化风险沟通框架提供实证依据。

衍生相关工作

围绕CAPphrase数据集，已衍生出多项经典研究工作，包括概率短语的认知建模、跨文化比较分析以及机器学习驱动的概率语言生成。例如，研究者利用该数据训练模型预测概率短语的数值范围，或探究教育背景与语言习惯对概率判断的影响，这些工作进一步拓展了数据在计算语言学与决策科学中的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集