TwoHopFact, SOCRATES

github2025-03-18 更新2025-03-23 收录

下载链接：

https://github.com/google-deepmind/latent-multi-hop-reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

TwoHopFact数据集包含45,595对一跳和两跳事实提示，涉及52种事实组合类型，旨在探测潜在多跳推理的内部机制。SOCRATES数据集包含7,232对一跳和两跳事实提示，涉及17种事实组合类型，旨在评估LLMs的潜在多跳推理能力，同时最小化捷径的风险。

The TwoHopFact dataset contains 45,595 pairs of one-hop and two-hop factual prompts, covering 52 categories of factual combinations, and is designed to probe the internal mechanisms underlying latent multi-hop reasoning. The SOCRATES dataset includes 7,232 pairs of one-hop and two-hop factual prompts, involving 17 categories of factual combinations, and aims to evaluate the multi-hop reasoning capabilities of large language models (LLMs) while minimizing the risk of shortcut reasoning biases.

创建时间：

2025-03-18

原始信息汇总

数据集概述

数据集来源

数据集来源于以下两篇论文：
- Sohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva*, Sebastian Riedel*. Do Large Language Models Latently Perform Multi-Hop Reasoning?. In ACL 2024.
- Sohee Yang, Nora Kassner, Elena Gribovskaya, Sebastian Riedel*, Mor Geva*. Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?. arXiv, 2024.

数据集目录

数据集详情

TwoHopFact

引入论文: Do Large Language Models Latently Perform Multi-Hop Reasoning?
描述: 包含45,595对一跳和两跳事实提示，涵盖52种事实组合类型，分布均衡，旨在探究潜在多跳推理的内部机制。
文件路径: datasets/TwoHopFact.csv (91MB)
HuggingFace数据集: soheeyang/TwoHopFact

SOCRATES (ShOrtCut-fRee lATent rEaSoning)

引入论文: Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?
描述: 包含7,232对一跳和两跳事实提示，涵盖17种事实组合类型，旨在评估大语言模型的潜在多跳推理能力，同时最小化捷径风险。
文件路径:
- datasets/SOCRATES_v1.csv (14MB): 清理后的版本，不包含语法错误。
- datasets/SOCRATES_v0.csv (14MB): 论文中使用的版本，包含少量语法错误。
HuggingFace数据集: soheeyang/SOCRATES

代码使用

潜在多跳推理路径检查

bash python inspect_latent_reasoning.py --model_name_or_path $MODEL_NAME_OR_PATH --input_csv_path datasets/TwoHopFact.csv --rq1_batch_size 256 --rq2_batch_size 8 --completion_batch_size 64 --hf_token $HF_TOKEN --run_rq1 --run_rq2 --run_appositive --run_cot --run_completion

无捷径评估

bash python evaluate_latent_reasoning.py --model_name_or_path $MODEL_NAME_OR_PATH --input_csv_path datasets/SOCRATES.csv --tensor_parallel_size 2 --batch_size 256 --hf_token $HF_TOKEN

Patchscopes分析

bash python run_patchscopes.py --model_name_or_path $MODEL_NAME_OR_PATH --input_csv_path datasets/SOCRATES.csv --batch_size 64 --source_layer_idxs 1,2 --target_layer_idxs 30,31 --hf_token $HF_TOKEN --run_evaluation --run_patchscopes_evaluation

代码结构

datasets: 包含两篇论文中引入的数据集。
- TwoHopFact.csv
- SOCRATES.csv
src: 包含核心功能代码。
- data_utils.py, model_utils.py, tokenization_utils.py: 包含两篇论文中使用的通用代码。
- inspection_utils.py: 包含Do Large Language Models Latently Perform Multi-Hop Reasoning?中使用的代码。
- evaluation_utils.py: 包含Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?中使用的代码。
- patchscopes_utils.py: 包含Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?中Patchscopes分析使用的代码。
results: 实验结果文件存储目录，可通过--output_dir参数设置。

引用

Do Large Language Models Latently Perform Multi-Hop Reasoning?

@inproceedings{ yang2024latentreasoning, title={Do Large Language Models Latently Perform Multi-Hop Reasoning?}, author={Sohee Yang and Elena Gribovskaya and Nora Kassner and Mor Geva and Sebastian Riedel}, booktitle={Association for Computational Linguistics}, year={2024}, url={https://aclanthology.org/2024.acl-long.550} }

Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?

@article{ yang2024shortcutfree, title={Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?}, author={Sohee Yang and Nora Kassner and Elena Gribovskaya and Sebastian Riedel and Mor Geva}, journal={arXiv}, year={2024}, url={https://arxiv.org/abs/2411.16679} }

许可证

所有软件均根据Apache License, Version 2.0 (Apache 2.0)许可；
所有其他材料均根据Creative Commons Attribution 4.0 International License (CC-BY)许可。

搜集汇总

数据集介绍

构建方式

TwoHopFact和SOCRATES数据集的构建旨在探究大语言模型在潜在多跳推理中的表现。TwoHopFact数据集包含45,595对单跳和双跳事实提示，涵盖52种事实组合类型，分布均衡，旨在揭示模型内部的多跳推理机制。SOCRATES数据集则包含7,232对单跳和双跳事实提示，涵盖17种事实组合类型，特别设计用于评估模型在避免捷径情况下的潜在多跳推理能力。

使用方法

使用TwoHopFact和SOCRATES数据集时，研究者可以通过提供的Python脚本进行潜在多跳推理路径的检查和评估。具体操作包括设置模型路径、输入数据集路径以及相关参数，如批次大小和HuggingFace令牌。通过运行不同的脚本，研究者可以分别进行多跳推理的检查、捷径自由的评估以及Patchscopes分析，从而全面了解模型在多跳推理中的表现。

背景与挑战

背景概述

TwoHopFact和SOCRATES数据集由Sohee Yang、Elena Gribovskaya、Nora Kassner、Mor Geva和Sebastian Riedel等研究人员在2024年提出，旨在探究大语言模型（LLMs）是否能够隐式执行多跳推理。TwoHopFact数据集包含45,595对一跳和两跳事实提示，涵盖52种事实组合类型，旨在揭示模型内部的多跳推理机制。SOCRATES数据集则包含7,232对一跳和两跳事实提示，专注于评估模型在避免利用捷径的情况下执行多跳推理的能力。这些数据集为大语言模型的推理能力研究提供了重要工具，推动了自然语言处理领域对模型内部机制的理解。

当前挑战

TwoHopFact和SOCRATES数据集的研究面临多重挑战。首先，多跳推理任务本身具有复杂性，要求模型能够准确连接多个事实片段以生成正确的推理路径，这对模型的逻辑推理能力提出了极高要求。其次，构建过程中需确保数据集的多样性和平衡性，以避免模型通过捷径或表面特征完成任务，从而影响评估结果的可靠性。此外，数据集的创建还需考虑语法和语义的准确性，以确保实验结果的科学性和可重复性。这些挑战不仅体现在数据集的构建过程中，也贯穿于模型评估和优化的各个环节。

常用场景

经典使用场景

TwoHopFact和SOCRATES数据集主要用于研究大型语言模型（LLMs）在多跳推理任务中的表现。这些数据集通过设计一系列单跳和双跳的事实提示，帮助研究者探索模型在复杂推理任务中的内部机制。经典使用场景包括通过实验验证模型是否能够在没有显式提示的情况下进行潜在的多跳推理，以及评估模型在避免利用捷径的情况下进行推理的能力。

解决学术问题

TwoHopFact和SOCRATES数据集解决了大型语言模型在多跳推理任务中的潜在机制研究问题。通过提供平衡分布的事实提示对，这些数据集帮助研究者深入理解模型在复杂推理任务中的表现，特别是在避免利用捷径的情况下进行推理的能力。这些研究不仅揭示了模型的内在推理路径，还为改进模型的多跳推理能力提供了理论基础。

实际应用

在实际应用中，TwoHopFact和SOCRATES数据集可用于开发和评估更智能的问答系统和信息检索工具。通过利用这些数据集，研究人员能够训练和测试模型在复杂查询中的表现，从而提高系统在真实世界中的推理能力和准确性。此外，这些数据集还可用于教育领域，帮助学生和教师理解复杂推理过程。

数据集最近研究