Generalized Associative Recall (GAR)
收藏arXiv2024-12-17 更新2024-12-19 收录
下载链接:
https://github.com/Caiyun-AI/GAR
下载链接
链接失效反馈官方服务:
资源简介:
Generalized Associative Recall (GAR)数据集由北京邮电大学提出,旨在评估大型语言模型在组合关系推理(CRR)任务中的表现。该数据集包含192个生成任务和192个分类任务,共计4608个示例,涵盖多种形式和难度级别。数据集通过自动生成任务,结合不同的语义和句法变体,确保任务的多样性和挑战性。GAR数据集主要用于系统性研究LLMs在CRR任务中的机制和性能,揭示其在复杂推理任务中的不足。
Generalized Associative Recall (GAR) dataset was proposed by Beijing University of Posts and Telecommunications, aiming to evaluate the performance of large language models (LLMs) on compositional relational reasoning (CRR) tasks. This dataset includes 192 generation tasks and 192 classification tasks, totaling 4608 examples, covering various forms and difficulty levels. The dataset ensures task diversity and challenging nature by automatically generating tasks combined with diverse semantic and syntactic variants. The GAR dataset is mainly used for systematically studying the mechanisms and performance of LLMs on CRR tasks, and revealing their limitations in complex reasoning tasks.
提供机构:
北京邮电大学
创建时间:
2024-12-17
原始信息汇总
数据集概述
数据集名称
Generalized Associative Recall (GAR)
数据集描述
GAR 是一个用于评估大型语言模型(LLMs)在组合关系推理(Compositional Relational Reasoning, CRR)任务中表现的综合基准。该数据集通过整合和概括机械解释性(Mechanistic Interpretability, MI)研究中的多个任务,形成了一个统一的框架。GAR 数据集旨在揭示现有 LLMs 在 CRR 任务中的基本缺陷,并为系统性 MI 研究提供基础。
数据集结构
GAR
- code: 包含生成 GAR 数据的代码(
GAR_utils.py和generate_GAR.py)以及基础数据。 - data: 包含由
generate_GAR.py生成的 GAR 示例,共有 4608 条数据。
MLP
- code: 包含训练模型(
train_and_test_MLP.py)和提取特征(get_features.py)的代码。 - data: 包含四个文件夹,分别是
GoT_zero_shot和SNLI_zero_shot,用于提取 GoT/SNLI 特征的 JSONL 文件和 CSV 文件;以及GoT_one_shot和SNLI_one_shot,用于模型测试的 GoT/SNLI 数据。
数据集使用
1. 生成 GAR 数据
运行以下命令生成 GAR 数据集:
python GAR/code/generate_GAR.py --cache_dir Your cache_dir --model_name Your model_name
2. 训练和测试 MLP
2.1. 提取特征
运行以下命令从数据集中提取特征:
python MLP/code/get_features.py --cache_dir Your cache_dir --model_name Your model_name --file_path Your data path
2.2. 训练 MLP 模型
运行以下命令训练 MLP 模型:
python MLP/code/train_and_test_MLP.py --dataname SNLI
依赖
- PyTorch 2.3.1
- Huggingface Transformers 4.36.0
- 所需模型:Vicuna-33B-v1.3
搜集汇总
数据集介绍

构建方式
Generalized Associative Recall (GAR) 数据集通过整合和概括机械可解释性(MI)研究中的多个任务的本质,构建了一个统一的合成基准。该数据集包含一系列自动生成的任务,任务形式多样,包括肯定/否定、生成/分类等,并且难度可调。构建过程分为三个步骤:首先从预定义的关系模式集中选择两个关系模式,并为每个模式选择一个关系;然后从关系的定义域和值域中采样元素,形成关系循环,并生成干扰的键值对;最后将生成的数据结构转换为自然语言陈述。通过这种方式,GAR 数据集不仅具有挑战性,还为系统性的机械可解释性研究提供了便利。
特点
GAR 数据集的主要特点在于其多样性和可控性。任务形式多样,涵盖了生成和分类任务,且通过引入否定和交换等语义和句法变体,进一步增加了任务的复杂性。此外,任务难度可通过调整非相同语义关系的数量来控制,确保了数据集在不同模型上的适用性。GAR 数据集的设计旨在揭示现有大型语言模型(LLMs)在组合关系推理(CRR)任务中的不足,同时为机械可解释性研究提供了一个易于操作的平台。
使用方法
GAR 数据集可用于评估和分析现有大型语言模型(LLMs)在组合关系推理(CRR)任务中的表现。用户可以通过该数据集测试模型在不同难度和形式任务上的准确性,并进一步分析模型在解决这些任务时的内部机制。通过使用归因补丁技术,研究人员可以识别模型中重复使用的核心电路和关键注意力头,从而深入理解模型在不同任务中的推理过程。此外,GAR 数据集还可用于验证模型在处理否定和分类任务时的表现,帮助揭示模型在复杂推理任务中的潜在缺陷。
背景与挑战
背景概述
Generalized Associative Recall (GAR)数据集由北京邮电大学和彩云科技的研究团队于2024年提出,旨在系统性地探索大型语言模型(LLMs)在组合关系推理(CRR)任务中的能力。该数据集通过整合和泛化机械可解释性(MI)研究中的多个任务,形成了一个统一的框架。GAR数据集的提出填补了现有研究中缺乏适合LLMs的CRR基准的空白,其设计不仅具有足够的挑战性,能够揭示LLMs在CRR任务中的基本缺陷,同时也简化了机械可解释性研究的过程。
当前挑战
GAR数据集面临的主要挑战包括:首先,如何设计一个既具有足够难度又能系统性评估LLMs组合关系推理能力的基准。其次,构建过程中需要解决如何通过合成任务精确控制数据生成过程,以确保任务的多样性和难度可调性。此外,GAR数据集还需要应对LLMs在复杂推理任务中的泛化能力不足问题,尤其是在任务复杂度增加时,模型的表现显著下降。最后,如何在机械可解释性分析中,揭示LLMs解决GAR任务的核心机制,尤其是识别和验证关键的注意力头,也是一个重要的挑战。
常用场景
经典使用场景
Generalized Associative Recall (GAR) 数据集主要用于评估和理解大型语言模型(LLMs)在组合关系推理(CRR)任务中的表现。通过集成和泛化多种任务的本质,GAR 提供了一个统一的框架,用于测试模型在不同形式和难度级别的任务中的表现。经典使用场景包括评估模型在生成和分类任务中的表现,特别是当任务涉及复杂的语义关系和多步推理时。
实际应用
GAR 数据集的实际应用场景广泛,特别是在需要复杂推理和语义组合能力的领域,如自然语言推理、知识问答和智能对话系统。通过评估和改进 LLMs 在这些任务中的表现,GAR 为开发更智能、更可靠的 AI 系统提供了基础。此外,GAR 还可以用于训练和验证专门用于处理复杂推理任务的模型,从而推动相关领域的技术进步。
衍生相关工作
GAR 数据集的提出催生了一系列相关研究,特别是在机制解释性(MI)和组合关系推理(CRR)领域。研究人员通过 GAR 发现了 LLMs 中用于解决复杂推理任务的核心电路,特别是 True/False 头部的识别和分析,这些头部在不同模型和任务中表现出一致的作用。此外,GAR 还启发了对 LLMs 在多步推理和语义组合任务中的深入研究,推动了相关领域的理论和实践发展。
以上内容由遇见数据集搜集并总结生成



