LongTail-Swap (LT-Swap)

Name: LongTail-Swap (LT-Swap)
Creator: Meta AI, EHESS
Published: 2025-10-06 00:17:33
License: 暂无描述

arXiv2025-10-06 更新2025-10-08 收录

下载链接：

https://github.com/rch/t-swap

下载链接

链接失效反馈

官方服务：

资源简介：

LongTail-Swap (LT-Swap) 是一个用于评估语言模型在处理低频词方面的能力的基准数据集。该数据集由元AI和EHESS共同创建，旨在解决当前语言模型在低频词上的学习困难。数据集包含两个子任务：WordSwap和InflectionSwap，分别用于评估语言模型在语义和语法方面的能力。该数据集适用于任何文本语料库，并已在BabyLM数据集上进行了评估。

LongTail-Swap (LT-Swap) is a benchmark dataset designed to evaluate the ability of language models to handle low-frequency words. Co-developed by Meta AI and EHESS, it aims to address the current challenges that language models encounter when learning low-frequency vocabulary. The dataset comprises two subtasks: WordSwap and InflectionSwap, which respectively assess the semantic and grammatical capabilities of language models. It is applicable to any text corpus and has been evaluated on the BabyLM dataset.

提供机构：

Meta AI, EHESS

创建时间：

2025-10-06

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，长尾词汇的稀疏性一直是语言模型泛化能力的核心挑战。LongTail-Swap基准通过系统化流程构建：首先从预训练语料中提取低频名词和动词，利用NLTK进行词性标注后按词频分箱；随后借助Llama3.1-405B生成包含目标词汇的句子对，并通过词汇置换构建语义/句法错误的对比样本；最终通过三重过滤机制确保任务可行性，包括基于预训练语料的上下文验证和句法合理性检测，形成包含WordSwap、InflectionSwap和AgreementSwap三个子任务的标准化评估体系。

特点

该数据集的核心特征体现在多维度评估框架的设计上：通过词汇频率分箱机制精准覆盖从高频词到仅出现一次的长尾词，首次实现语言模型在Zipf分布尾部的系统性评估；其独特的四元组对比结构有效规避了句子长度、单字概率等混淆因素，确保评估结果的纯净度；三个子任务分别针对语义理解、词形变化和语法一致性等语言能力，其中AgreementSwap更创新性地引入长短距离依赖测试，全面揭示模型句法处理机制的瓶颈。

使用方法

使用本数据集时需遵循零样本评估范式：将待测语言模型在四元组句子上的对数概率作为判别依据，通过对比正确句与置换句的置信度差异计算准确率。评估过程需按词频分箱和子任务分别统计，最终聚合为整体LT-Swap分数。值得注意的是，研究者可采用检索增强方法提升WordSwap任务表现——在输入前缀中添加包含目标词的预训练句子，但需注意该方法可能对句法任务产生负面影响。数据集代码库支持基于任意英文语料生成定制化基准，为跨领域语言模型评估提供便利。

背景与挑战

背景概述

自然语言处理领域长期面临数据效率与人类语言习得能力间的显著差距，2025年由Meta AI与EHESS联合发布的LongTail-Swap基准测试应运而生。该数据集聚焦于语言模型对长尾罕见词汇的泛化能力，其设计灵感源于婴幼儿通过极少量接触即可掌握新词汇的认知特性。通过构建包含语义与句法双重维度的可接受性句子对，该基准填补了BabyLM挑战赛在词汇分布尾部评估的空白，为探索数据高效的语言模型架构提供了关键方法论支撑。

当前挑战

在解决领域问题层面，该数据集直面Zipf定律下长尾词汇导致的模型泛化困境，尤其针对罕见实体理解与递归训练中的模态坍塌现象。构建过程中需克服三大技术挑战：其一是通过LLM生成符合语法规范的罕见词汇例句时，需确保生成内容与预训练集词汇分布的严格对齐；其二是设计四元组句子对时需平衡语义合理性与句法正确性，避免上下文线索泄露；其三是开发多阶段过滤机制时，需精确校准LLM判别阈值以排除不可行任务样本。

常用场景

经典使用场景

在自然语言处理领域，LongTail-Swap数据集主要用于评估语言模型在低频词汇上的泛化能力。该数据集通过构建可接受与不可接受句子对，专门针对预训练语料库中的罕见词汇进行语义和句法能力测试。研究人员利用该数据集在零样本设置下计算模型对句子对的平均对数概率，从而系统评估不同架构语言模型在长尾分布上的表现差异。

实际应用

在实际应用层面，LT-Swap为改进语言模型的罕见词处理能力提供了明确方向。研究表明，通过简单的RAG式前缀增强方法即可显著提升语义任务表现，这为开发适应真实语言场景的模型提供了可行路径。该框架的可扩展性使其能够基于任意英文文本生成定制化测试集，为教育科技、智能客服等需要处理专业术语的应用场景提供了评估工具。

衍生相关工作

基于LT-Swap的评估框架，研究者开发了针对不同语言特性的衍生工作。在语义层面，WordSwap任务通过词汇替换评估模型的概念理解能力；在句法层面，InflectionSwap和AgreementSwap分别测试词形变化和语法一致性规则。这些任务共同构成了多层次评估体系，后续研究进一步探索了词符化策略对长尾学习的影响，推动了字符级模型在句法任务上的创新应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集