Simple reversals, Simple syllogisms, Reversal curse paper, Semantic structure benchmark

Name: Simple reversals, Simple syllogisms, Reversal curse paper, Semantic structure benchmark
Creator: Google DeepMind, 斯坦福大学
Published: 2025-05-02 01:02:27
License: 暂无描述

arXiv2025-05-02 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.00661v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文提出了一系列数据集，旨在研究语言模型在上下文学习和微调中的泛化能力。这些数据集包括简单逆转、简单三段论、逆转诅咒论文和语义结构基准。它们被设计为隔离数据集中的知识，以创建清洁的泛化测试。这些数据集通过让预训练的大型模型接触数据集中的控制子集信息，并在需要各种泛化类型的测试集上评估其性能。研究结果表明，在数据匹配的情况下，上下文学习比微调更加灵活。此外，本文还提出了一种通过添加上下文推理来改进微调泛化的方法。

This paper presents a suite of datasets designed to investigate the generalization capabilities of language models in in-context learning and fine-tuning. These datasets cover Simple Reversal, Simple Syllogism, the Reverse Curse paper, and the Semantic Structure Benchmark. They are developed to isolate the knowledge within the datasets, thus creating clean, uncontaminated generalization tests. These datasets operate by exposing pre-trained large language models to information from their control subsets, and evaluating the models' performance on test sets that require diverse types of generalization. The research findings demonstrate that in data-matched settings, in-context learning is more flexible than fine-tuning. Furthermore, this paper proposes a method to enhance the generalization performance of fine-tuning by integrating contextual reasoning.

提供机构：

Google DeepMind, 斯坦福大学

创建时间：

2025-05-02

搜集汇总

数据集介绍

构建方式

该数据集通过构建受控的合成数据来评估语言模型在上下文学习和微调中的泛化能力。数据集的构建旨在隔离预训练数据中的知识，以创建干净的泛化测试。具体而言，数据集包含简单反转、简单三段论、反转诅咒论文和语义结构基准等任务，每个任务都设计为测试模型在不同类型泛化上的表现。例如，简单反转数据集包含一百个独立的事实，每个事实在十个不同的训练文章中重复出现，测试集则包含正确反转和矛盾关系的强制选择。

特点

该数据集的特点在于其多样化的任务设计和严格的泛化测试。数据集涵盖了从简单反转关系到复杂语义结构的多种任务，每个任务都设计为测试模型在不同类型推理上的表现。例如，语义结构基准数据集包含110个动物和物体的类别，每个类别具有1-6个属性，测试集则包含反转关系、三段论推理和更长推理链的任务。此外，数据集使用无意义词汇以避免与预训练数据的重叠，确保测试的纯净性。

使用方法

该数据集的使用方法包括通过上下文学习和微调两种方式评估模型的泛化能力。在上下文学习中，模型通过将整个训练数据集作为上下文来回答问题；在微调中，模型通过在特定数据集上进行训练来适应任务。此外，数据集还支持数据增强方法，例如通过上下文推理生成额外的训练数据以提高微调的泛化能力。评估采用多项选择似然评分，确保测试的客观性和一致性。

背景与挑战

背景概述

该数据集由Google DeepMind与斯坦福大学的研究团队于2025年创建，旨在探究大型语言模型在上下文学习与微调两种模式下的泛化能力差异。核心研究聚焦于模型对关系反转、三段论推理等逻辑任务的泛化表现，通过构建包含虚构实体和语义结构的合成数据集，隔离预训练知识干扰以创建纯净的评估环境。该研究揭示了上下文学习在系统性推理任务上的优势，为理解语言模型归纳偏置提供了重要实证依据，对改进模型适应下游任务的方法具有深远影响。

当前挑战

数据集面临双重挑战：在领域问题层面，需解决语言模型对简单关系反转（如'A是B'无法推导'B是A'）和复合逻辑推理（如三段论）的泛化缺陷，这些缺陷会阻碍模型在实际应用中的可靠性；在构建层面，研究者需设计自洽的虚构语义结构以避免预训练数据污染，同时应对生造词带来的分词干扰，并通过控制训练/测试集拆分策略精确评估不同泛化类型（如反转、组合推理等）的表现。

常用场景

经典使用场景

该数据集在语言模型泛化能力研究中扮演了关键角色，特别是在对比上下文学习（ICL）与微调（fine-tuning）两种学习模式的泛化表现。通过精心设计的简单反转（Simple reversals）和简单三段论（Simple syllogisms）任务，研究者能够隔离模型在逻辑推理和关系反转上的能力，从而深入分析模型在不同学习模式下的表现差异。

实际应用

在实际应用中，该数据集的研究成果为改进语言模型在下游任务中的表现提供了重要参考。例如，通过将ICL生成的推理数据加入微调数据集，可以显著提升模型在关系反转和逻辑推理任务中的表现。这种方法已被证明在多个基准测试中有效，为实际应用中的模型优化提供了可行方案。

衍生相关工作

该数据集衍生了一系列经典研究工作，特别是在语言模型泛化能力领域。例如，Berglund等人（2024）提出的“反转诅咒”现象研究，以及Lampinen等人（2024b）对语言模型在上下文学习中的推理能力分析。这些工作进一步推动了语言模型泛化能力的理论研究，并为后续的数据增强和模型优化方法提供了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集