CAT-BENCH
收藏arXiv2024-06-22 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2406.15823v1
下载链接
链接失效反馈官方服务:
资源简介:
CAT-BENCH是由石溪大学等机构创建的一个评估语言模型理解因果和时间依赖性的基准数据集。该数据集包含4260个关于因果依赖性的问题,覆盖57个独特的计划案例,主要用于测试语言模型在理解烹饪食谱计划中的步骤顺序和因果关系方面的能力。数据集的构建基于Recipe Flow Graph Corpus,通过分析步骤间的直接路径来确定步骤的依赖性。CAT-BENCH的应用领域主要集中在提高语言模型在决策支持系统中的可靠性和准确性,特别是在理解和预测计划步骤的因果和时间顺序方面。
CAT-BENCH is a benchmark dataset developed by institutions including Stony Brook University to evaluate language models' understanding of causal and temporal dependencies. This dataset contains 4,260 questions focused on causal dependencies, covering 57 unique planning cases, and is primarily designed to test language models' ability to comprehend step order and causal relationships within cooking recipe plans. The dataset is constructed based on the Recipe Flow Graph Corpus, with step dependencies determined by analyzing direct paths between individual steps. The application scenarios of CAT-BENCH mainly focus on improving the reliability and accuracy of language models in decision support systems, particularly in comprehending and predicting the causal and temporal order of planning steps.
提供机构:
石溪大学
创建时间:
2024-06-22
搜集汇总
数据集介绍

构建方式
CAT-BENCH数据集的构建基于对烹饪食谱计划中的步骤顺序预测问题。研究者修改了Recipe Flow Graph Corpus,这是一个包含300个英语烹饪食谱的数据集,这些食谱标注有子步骤程序依赖关系。每个食谱都被转换成一个有向无环图(DAG),其中节点代表步骤,有向边表示步骤之间的时间关系。如果两个步骤之间没有有向路径连接,那么它们可以以任何顺序执行。研究者为所有有序步骤对(i,j)创建了两个二元(是/否)问题:(i)步骤i是否必须发生在步骤j之前?(ii)步骤j是否必须发生在步骤i之后?这些问题主要测试对于前提条件关系(例如,图2中的第一个问题)以及理解步骤的效果以及它们如何与计划的目标或子目标相关联的能力(例如,图2中的第二个问题)。所有这些问题的答案都是从依赖步骤对(即在食谱DAG中存在从一步骤节点到另一个节点的有向路径的步骤)中收集的,并放入DEP集中,其余的放入NONDEP集中。CAT-BENCH最终包含57个独特计划中的4260个关于因果依赖性的问题。
特点
CAT-BENCH数据集的特点在于其关注于计划中的因果和时间推理能力。该数据集包含57个独特计划的4260个因果依赖性问题,这些问题旨在测试语言模型是否能够识别反映计划因果和时序结构的步骤依赖关系。此外,数据集还包含两个任务:步骤顺序预测和步骤顺序解释。步骤顺序预测任务要求模型对计划中步骤对的依赖性进行二元判断,而步骤顺序解释任务则要求模型为其关于步骤依赖性的判断提供解释。数据集还根据步骤对之间的距离对问题进行了标注,以便研究模型在处理不同距离的步骤对时的表现。
使用方法
CAT-BENCH数据集的使用方法包括两个主要任务:步骤顺序预测和步骤顺序解释。步骤顺序预测任务要求模型对计划中步骤对的依赖性进行二元判断,而步骤顺序解释任务则要求模型为其关于步骤依赖性的判断提供解释。模型可以通过生成答案(A)或生成答案和解释(A + E)来完成任务。此外,研究者还评估了模型的鲁棒性,使用两个一致性指标:时间一致性(TC)和顺序对比一致性(OCC)。时间一致性测量模型在回答相同步骤对的“之前”和“之后”版本的问题时的一致性,而顺序对比一致性则测量模型在NONDEP和NONDEP-S集(步骤对在计划中的顺序被交换)上提供一致答案的频率。研究者还使用人类评估来比较不同模型在生成解释方面的表现,并使用标准化界面来评估模型输出的有效性。
背景与挑战
背景概述
在自然语言处理领域,理解语言模型(LLMs)在推理自然语言计划(如说明文本和食谱)方面的能力对于可靠地在决策系统中使用它们至关重要。CAT-BENCH是一个新的基准测试,它评估LLMs在理解因果和时序依赖方面的能力,特别是在烹饪食谱计划中。该数据集由Stony Brook大学、德克萨斯大学奥斯汀分校和美国海军学院的研究人员创建,旨在通过测试步骤顺序预测问题来评估LLMs。CAT-BENCH包含4260个关于因果依赖的问题,涉及57个独特的计划,这些问题测试了LLMs是否能够识别反映计划因果和时序结构的步骤依赖性。
当前挑战
尽管LLMs在生成计划方面表现出色,但它们在理解计划步骤的重要方面方面仍存在显著缺陷。CAT-BENCH基准测试显示,当前的SOTA LLMs在预测计划中的因果依赖方面表现不佳,并且它们在理解说明文本方面存在疑问。此外,LLMs的预测在一致性方面也存在问题,因为它们在回答相同步骤对的“之前”和“之后”版本的问题时表现出不一致。尽管通过提示LLMs解释他们的决定可以提高性能,但人类对SOTA LLMs的解释的平均评分仅为3(满分5分),这表明LLMs在推理步骤依赖性方面还有很大的改进空间。
常用场景
经典使用场景
CAT-BENCH数据集主要用于评估语言模型在理解和推理自然语言计划方面的能力,特别是对因果和时序依赖的理解。该数据集通过烹饪食谱中的步骤顺序预测问题,测试模型是否能够正确判断一个步骤是否必须在另一个步骤之前或之后执行。
实际应用
CAT-BENCH数据集的实际应用场景包括但不限于教育和培训、医疗实践指南、维修手册和软件教程等领域。通过评估LLMs在理解和推理自然语言计划方面的能力,该数据集可以帮助开发者和研究者开发更可靠、更智能的语言模型,以支持各种实际应用。
衍生相关工作
CAT-BENCH数据集的衍生相关工作包括但不限于自然语言推理、计划理解、实体状态跟踪、动作链接、事件预测等多个方面。该数据集为相关研究提供了丰富的数据资源和评估平台,有助于推动相关领域的进一步发展。
以上内容由遇见数据集搜集并总结生成



