DeliData

Name: DeliData
Creator: 剑桥大学
Published: 2023-04-16 21:11:25
License: 暂无描述

arXiv2023-04-16 更新2024-06-21 收录

下载链接：

https://delibot.xyz

下载链接

链接失效反馈

官方服务：

资源简介：

DeliData是由剑桥大学创建的一个公开数据集，专注于多人在解决问题时的协商对话。该数据集包含500组对话，总计14000条发言，旨在通过这些对话研究群体如何通过协商达成更好的决策。数据集中的对话涉及一个经典的认知任务，即Wason卡片选择任务，该任务不需要参与者具备特定知识背景。DeliData不仅提供了对话内容，还包括了对话前后的任务表现数据，以及一个新颖的标注方案，用于捕捉协商过程中的关键线索。该数据集的应用领域广泛，包括教育、正式的协商会议以及非正式的讨论等，旨在通过分析协商过程，提出有效的干预措施，以促进群体决策的优化。

DeliData is a publicly available dataset developed by the University of Cambridge, focusing on collaborative negotiation dialogues among multiple participants during problem-solving. This dataset consists of 500 dialogue sessions with a total of 14,000 utterances, aiming to explore how groups can reach better decisions through negotiation. The dialogues in this dataset center on a classic cognitive task: the Wason Selection Task, which requires no specialized prior knowledge from participants. Beyond the dialogue transcripts, DeliData also provides pre- and post-task performance data of participants, alongside a novel annotation scheme tailored to capture critical cues throughout the negotiation process. This dataset has broad applications spanning education, formal negotiation sessions, informal discussions and other scenarios. Its core objective is to propose effective intervention strategies to optimize group decision-making via the analysis of negotiation processes.

提供机构：

剑桥大学

创建时间：

2021-08-11

搜集汇总

数据集介绍

构建方式

在协作与群体决策研究领域，DeliData数据集的构建采用了严谨的实验协议。研究者以经典的沃森选择任务为认知基础，通过在线平台招募参与者，设计了三阶段数据采集流程：个体独立解题、群体自由讨论与修订答案。数据收集过程结合了实验室预研与大规模众包平台，确保了对话的自然性与多样性。最终，经过严格的质量筛选，形成了包含500组对话、共计1.4万条语句的语料库，并辅以任务表现的前后测数据，为量化群体审议效果提供了可靠依据。

使用方法

该数据集为探索群体审议动态提供了多维应用路径。研究者可基于标注体系分析审议策略与对话结构的关联，或利用前后测数据建模群体表现增益的预测因子。在计算语言学领域，其标注语料可用于训练话语角色分类模型，而对话生成实验则展示了构建审议辅助系统的潜力。此外，数据集设计的抽象性与标注体系的通用性，支持其向教育讨论、政策协商等现实场景的迁移研究，为跨领域协作机制分析提供了方法论基础。

背景与挑战

背景概述

在协作计算与认知心理学交叉领域，群体审议作为提升集体决策质量的关键机制长期受到关注，但相关研究因缺乏高质量数据资源而进展缓慢。为此，剑桥大学与谢菲尔德大学的研究团队于2023年推出了DeliData数据集，这是首个公开的多方问题解决审议对话数据集。该数据集聚焦于经典的沃森卡片选择任务，收录了500组群体对话与1.4万条话语，通过量化讨论前后决策正确性的变化，实证揭示了群体审议能使64%的团队表现超越个体最优解，其中43.8%的正确解决方案完全诞生于集体讨论过程。这项研究不仅填补了协作对话数据资源的空白，其创新的审议线索标注体系更为计算社会科学与对话系统研究提供了重要基础设施。

当前挑战

该数据集致力于解决多方协作问题解决场景中的核心挑战：如何通过结构化对话分析揭示群体审议提升决策质量的内在机制。具体构建过程中面临双重挑战：在领域问题层面，需设计能客观衡量决策正确性的认知任务，同时确保任务不依赖先验知识以保证研究结论的普适性；在数据构建层面，需克服多参与者同步对话采集的技术障碍，通过改进众包平台交互协议实现高质量群体对话的规模化收集，并建立具有良好泛化能力的多层次标注体系以捕捉审议动态中的推理、调解与解决方案管理等微妙特征。

常用场景

经典使用场景

在协作计算与对话系统研究领域，DeliData数据集为多参与者问题解决中的审议行为提供了关键实证基础。该数据集通过记录群体在解决经典认知任务（如华生选择任务）时的对话过程，捕捉了自然情境下的协作动态与审议策略。其经典使用场景集中于分析群体如何通过语言交互超越个体认知局限，实现集体智慧的涌现，为理解审议如何促进问题解决效能提供了结构化语料。

解决学术问题

DeliData有效解决了协作对话研究中长期存在的资源匮乏问题，为量化审议效果提供了客观评估框架。通过关联对话内容与任务正确性度量，该数据集使研究者能够系统探究审议策略与决策质量之间的因果关系，突破了传统心理学研究仅关注讨论结果的局限。其标注体系进一步揭示了审议中的论证结构、探究行为与解决方案管理机制，为构建可解释的群体协作理论奠定了数据基础。

实际应用

该数据集的实际应用已延伸至教育技术、会议辅助系统及数字民主等多个领域。基于DeliData训练的对话代理能够识别有效审议模式，为在线协作平台提供实时干预建议，例如在远程教学小组中激发深度推理，或在企业决策会议中平衡参与度。其标注框架还被成功迁移至深度伪造检测等现实协作任务，证明了抽象审议模式在复杂实际问题中的泛化能力。

数据集最近研究