five

TwoHopFact, SOCRATES

收藏
github2025-03-18 更新2025-03-23 收录
下载链接:
https://github.com/google-deepmind/latent-multi-hop-reasoning
下载链接
链接失效反馈
官方服务:
资源简介:
TwoHopFact数据集包含45,595对一跳和两跳事实提示,涉及52种事实组合类型,旨在探测潜在多跳推理的内部机制。SOCRATES数据集包含7,232对一跳和两跳事实提示,涉及17种事实组合类型,旨在评估LLMs的潜在多跳推理能力,同时最小化捷径的风险。

The TwoHopFact dataset contains 45,595 pairs of one-hop and two-hop factual prompts, covering 52 categories of factual combinations, and is designed to probe the internal mechanisms underlying latent multi-hop reasoning. The SOCRATES dataset includes 7,232 pairs of one-hop and two-hop factual prompts, involving 17 categories of factual combinations, and aims to evaluate the multi-hop reasoning capabilities of large language models (LLMs) while minimizing the risk of shortcut reasoning biases.
创建时间:
2025-03-18
原始信息汇总

数据集概述

数据集来源

数据集目录

  • 数据集位于datasets目录下。

数据集详情

TwoHopFact

SOCRATES (ShOrtCut-fRee lATent rEaSoning)

代码使用

潜在多跳推理路径检查

bash python inspect_latent_reasoning.py --model_name_or_path $MODEL_NAME_OR_PATH --input_csv_path datasets/TwoHopFact.csv --rq1_batch_size 256 --rq2_batch_size 8 --completion_batch_size 64 --hf_token $HF_TOKEN --run_rq1 --run_rq2 --run_appositive --run_cot --run_completion

无捷径评估

bash python evaluate_latent_reasoning.py --model_name_or_path $MODEL_NAME_OR_PATH --input_csv_path datasets/SOCRATES.csv --tensor_parallel_size 2 --batch_size 256 --hf_token $HF_TOKEN

Patchscopes分析

bash python run_patchscopes.py --model_name_or_path $MODEL_NAME_OR_PATH --input_csv_path datasets/SOCRATES.csv --batch_size 64 --source_layer_idxs 1,2 --target_layer_idxs 30,31 --hf_token $HF_TOKEN --run_evaluation --run_patchscopes_evaluation

代码结构

引用

Do Large Language Models Latently Perform Multi-Hop Reasoning?

@inproceedings{ yang2024latentreasoning, title={Do Large Language Models Latently Perform Multi-Hop Reasoning?}, author={Sohee Yang and Elena Gribovskaya and Nora Kassner and Mor Geva and Sebastian Riedel}, booktitle={Association for Computational Linguistics}, year={2024}, url={https://aclanthology.org/2024.acl-long.550} }

Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?

@article{ yang2024shortcutfree, title={Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?}, author={Sohee Yang and Nora Kassner and Elena Gribovskaya and Sebastian Riedel and Mor Geva}, journal={arXiv}, year={2024}, url={https://arxiv.org/abs/2411.16679} }

许可证

  • 所有软件均根据Apache License, Version 2.0 (Apache 2.0)许可;
  • 所有其他材料均根据Creative Commons Attribution 4.0 International License (CC-BY)许可。
搜集汇总
数据集介绍
main_image_url
构建方式
TwoHopFact和SOCRATES数据集的构建旨在探究大语言模型在潜在多跳推理中的表现。TwoHopFact数据集包含45,595对单跳和双跳事实提示,涵盖52种事实组合类型,分布均衡,旨在揭示模型内部的多跳推理机制。SOCRATES数据集则包含7,232对单跳和双跳事实提示,涵盖17种事实组合类型,特别设计用于评估模型在避免捷径情况下的潜在多跳推理能力。
使用方法
使用TwoHopFact和SOCRATES数据集时,研究者可以通过提供的Python脚本进行潜在多跳推理路径的检查和评估。具体操作包括设置模型路径、输入数据集路径以及相关参数,如批次大小和HuggingFace令牌。通过运行不同的脚本,研究者可以分别进行多跳推理的检查、捷径自由的评估以及Patchscopes分析,从而全面了解模型在多跳推理中的表现。
背景与挑战
背景概述
TwoHopFact和SOCRATES数据集由Sohee Yang、Elena Gribovskaya、Nora Kassner、Mor Geva和Sebastian Riedel等研究人员在2024年提出,旨在探究大语言模型(LLMs)是否能够隐式执行多跳推理。TwoHopFact数据集包含45,595对一跳和两跳事实提示,涵盖52种事实组合类型,旨在揭示模型内部的多跳推理机制。SOCRATES数据集则包含7,232对一跳和两跳事实提示,专注于评估模型在避免利用捷径的情况下执行多跳推理的能力。这些数据集为大语言模型的推理能力研究提供了重要工具,推动了自然语言处理领域对模型内部机制的理解。
当前挑战
TwoHopFact和SOCRATES数据集的研究面临多重挑战。首先,多跳推理任务本身具有复杂性,要求模型能够准确连接多个事实片段以生成正确的推理路径,这对模型的逻辑推理能力提出了极高要求。其次,构建过程中需确保数据集的多样性和平衡性,以避免模型通过捷径或表面特征完成任务,从而影响评估结果的可靠性。此外,数据集的创建还需考虑语法和语义的准确性,以确保实验结果的科学性和可重复性。这些挑战不仅体现在数据集的构建过程中,也贯穿于模型评估和优化的各个环节。
常用场景
经典使用场景
TwoHopFact和SOCRATES数据集主要用于研究大型语言模型(LLMs)在多跳推理任务中的表现。这些数据集通过设计一系列单跳和双跳的事实提示,帮助研究者探索模型在复杂推理任务中的内部机制。经典使用场景包括通过实验验证模型是否能够在没有显式提示的情况下进行潜在的多跳推理,以及评估模型在避免利用捷径的情况下进行推理的能力。
解决学术问题
TwoHopFact和SOCRATES数据集解决了大型语言模型在多跳推理任务中的潜在机制研究问题。通过提供平衡分布的事实提示对,这些数据集帮助研究者深入理解模型在复杂推理任务中的表现,特别是在避免利用捷径的情况下进行推理的能力。这些研究不仅揭示了模型的内在推理路径,还为改进模型的多跳推理能力提供了理论基础。
实际应用
在实际应用中,TwoHopFact和SOCRATES数据集可用于开发和评估更智能的问答系统和信息检索工具。通过利用这些数据集,研究人员能够训练和测试模型在复杂查询中的表现,从而提高系统在真实世界中的推理能力和准确性。此外,这些数据集还可用于教育领域,帮助学生和教师理解复杂推理过程。
数据集最近研究
最新研究方向
在自然语言处理领域,TwoHopFact和SOCRATES数据集的最新研究方向聚焦于大语言模型(LLMs)的潜在多跳推理能力。TwoHopFact数据集通过45,595对一跳和两跳事实提示,探索了52种事实组合类型,旨在揭示LLMs在内部机制中是否隐式执行多跳推理。SOCRATES数据集则通过7,232对一跳和两跳事实提示,评估LLMs在避免利用捷径的情况下进行潜在多跳推理的能力。这些研究不仅推动了LLMs在复杂推理任务中的性能提升,还为理解其内部工作机制提供了新的视角,具有重要的理论和应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作