Choice-75

Name: Choice-75
Creator: 匹兹堡大学
Published: 2024-03-18 09:35:48
License: 暂无描述

arXiv2024-03-18 更新2024-06-21 收录

下载链接：

https://github.com/JoeyHou/branching

下载链接

链接失效反馈

官方服务：

资源简介：

Choice-75是由匹兹堡大学和宾夕法尼亚大学合作创建的数据集，专注于研究脚本学习中的决策分支问题。该数据集包含75个脚本，每个脚本都有多个描述性场景，总计超过600个场景。创建过程中采用了人机交互的方法，确保场景的质量和挑战性。数据集的应用领域主要集中在提高智能系统在复杂决策场景中的表现，特别是在需要多步推理的难题上。

Choice-75 is a collaborative dataset developed by the University of Pittsburgh and the University of Pennsylvania, focused on investigating decision branching problems in script learning. It comprises 75 individual scripts, each containing multiple descriptive scenarios, with an overall count of over 600 scenarios. A human-computer interaction workflow was implemented during its creation to ensure the quality and challenging nature of all scenarios. The primary applications of this dataset center on enhancing the performance of intelligent systems in complex decision-making scenarios, particularly for challenging problems that demand multi-step reasoning capabilities.

提供机构：

匹兹堡大学

创建时间：

2023-09-21

搜集汇总

数据集介绍

构建方式

在脚本学习领域，传统研究多将事件序列视为线性发展，而现实世界中的脚本常因情境选择产生分支。Choice-75数据集的构建旨在填补这一空白，其核心方法以proScript数据库为基础，从中随机抽取75个日常活动目标，并为每个目标手动编写两个可行选项，经研究人员交叉验证确保质量。随后，通过人工标注与基于大语言模型的人机协同生成两种方式，为每个目标-选项对创建多样化场景，并依据推理步骤的复杂度标注难度等级，最终形成包含600余个场景的结构化数据集。

特点

该数据集在事件推理领域展现出独特价值，其核心特点在于首次系统化建模脚本中的决策分支问题，要求模型在给定描述性场景下选择更合理的选项。数据集中每个实例包含目标、双选项、场景列表及真实选择，并创新性地引入用户档案格式，模拟现实世界中从异构数据源挖掘用户特征的复杂情境。此外，数据集依据人类标注的推理步数划分易、中、难及无最优选择四类难度等级，为评估模型的多跳推理与常识整合能力提供了细粒度基准。

使用方法

在机器推理研究中，Choice-75可作为评估智能系统情境化决策能力的基准工具。典型使用方式是将任务构建为上下文学习问题：在提示中整合目标、双选项及特定场景，要求模型预测最优选择。研究者可采用朴素提示或故事化提示等格式，结合少量示例进行模型测试，尤其适合探究大语言模型在隐含常识推理与多跳逻辑推断上的表现。数据集的难度分级便于针对性分析模型在复杂决策场景中的局限，为个性化智能辅助系统等应用提供研究基础。

背景与挑战

背景概述

在事件中心推理与脚本学习的研究领域中，理解事件间的关联性对于构建智能系统至关重要。脚本学习旨在探究刻板化事件的演进模式，为机器理解隐含信息的叙事提供基础。Choice-75数据集由匹兹堡大学和宾夕法尼亚大学的研究团队于近期创建，其核心研究问题聚焦于脚本中的决策分支建模，挑战现有系统在给定描述性场景下做出合理选择的能力。该数据集包含75个脚本及超过600个场景，首次将分支结构引入脚本学习任务，推动了从线性事件序列到复杂决策推理的范式转变，对叙事理解与常识推理领域产生了深远影响。

当前挑战

Choice-75数据集旨在解决脚本学习中决策分支建模的挑战，要求系统在多样化场景下评估选项的合理性，尤其涉及多跳推理与隐式常识的整合。当前先进大型语言模型在困难场景中表现显著落后于人类，揭示了其在复杂逻辑链条与噪声信息处理上的局限。数据构建过程中，研究团队面临高质量困难场景生成的难题，通过人机协作范式结合大语言模型生成与人工校验，仍需应对场景多样性有限、标注资源约束以及现实世界简化假设带来的偏差。数据集的领域分布受限于日常程序文本，规模相对较小，可能影响模型的泛化能力与文化适应性。

常用场景

经典使用场景

在脚本学习领域，传统研究常将事件序列视为线性发展，忽视了现实情境中因个体选择而产生的分支结构。Choice-75数据集通过构建包含目标、选项与多样化场景的决策分支任务，为评估智能系统在叙事理解中的决策能力提供了基准。该数据集最经典的使用场景是模拟日常活动中的决策过程，例如在给定“查询图书馆开放时间”的目标下，系统需根据“无网络连接”或“凌晨三点”等场景，从“致电图书馆”与“在线搜索”两个选项中做出合理选择，从而检验模型结合常识与多步推理的能力。

衍生相关工作

Choice-75的提出衍生了一系列围绕决策分支与场景化推理的经典研究工作。其构建方法继承了人类在环的数据生成范式，如Liu等人（2022）在自然语言推理任务中的协作标注框架，并拓展至脚本学习领域。后续研究可基于该数据集的难度分级机制，开发针对多跳推理的专用模型架构或提示工程技术。同时，该任务与事件因果关系建模（如Wang等人2023年的上下文依赖研究）、个性化对话系统（如Karadzhov等人2022年的群体决策分析）形成互补，共同推动机器在复杂叙事中理解与生成分支结构的能力，为脚本学习领域注入了新的研究方向。

数据集最近研究