lambada

Hugging Face2025-09-03 更新2025-09-04 收录

下载链接：

https://huggingface.co/datasets/SebastiaanBeekman/lambada

下载链接

链接失效反馈

官方服务：

资源简介：

LAMBADA数据集是一个用于评估计算模型在文本理解方面的能力的数据集，包含从BookCorpus中提取的10022个段落。这些段落的特点是人类能够通过阅读整个段落来预测最后的单词，但如果只看到最后一个句子则无法预测。因此，计算模型在进行单词预测时需要考虑到更广泛的语篇上下文。数据集分为开发集和测试集，分别包含4869个和5153个段落。用于训练的语料库包括2662部小说全文。

创建时间：

2025-08-30

原始信息汇总

数据集概述：LAMBADA Clone

基本描述

LAMBADA用于评估计算模型通过词语预测任务进行文本理解的能力。该数据集包含叙事性段落，其特点是人类受试者在接触整个段落时能够猜出最后一个词，但仅看到目标词之前的最后一个句子时则无法猜出。要在LAMBADA上取得成功，计算模型不能仅仅依赖局部上下文，而必须能够跟踪更广泛话语中的信息。

数据组成

来源：数据从BookCorpus中提取。
规模：包含10,022个段落。
划分：
- 开发集：4,869个段落
- 测试集：5,153个段落
训练数据：包含2,662部小说的全文（与开发集和测试集不相交），总计2.03亿个单词。

语言信息

语言：英语（en）

许可信息

许可证：CC BY 4.0（知识共享署名4.0国际许可协议）

引用信息

如需引用，请使用以下格式： bibtex @InProceedings{paperno-EtAl:2016:P16-1, author = {Paperno, Denis and Kruszewski, Germ{a}n and Lazaridou, Angeliki and Pham, Ngoc Quan and Bernardi, Raffaella and Pezzelle, Sandro and Baroni, Marco and Boleda, Gemma and Fernandez, Raquel}, title = {The {LAMBADA} dataset: Word prediction requiring a broad discourse context}, booktitle = {Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)}, month = {August}, year = {2016}, address = {Berlin, Germany}, publisher = {Association for Computational Linguistics}, pages = {1525--1534}, url = {http://www.aclweb.org/anthology/P16-1144} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，LAMBADA数据集的构建旨在评估模型对长文本依赖关系的理解能力。该数据集从BookCorpus中精选叙事性段落，通过人工标注确保每段末尾词仅能通过全文上下文推断，而无法由最后单句独立预测。开发集与测试集分别包含4,869和5,153个段落，训练数据则来自2,662部小说的完整文本，总计2.03亿词汇，严格保持训练集与评估集的作品独立性。

特点

LAMBADA的突出特点在于其设计理念：要求模型具备跨句推理能力而非局部语义捕捉。所有段落均呈现叙事连贯性，末尾词与全局语境存在隐式逻辑关联，有效区分了表面统计学习与深层语义理解。数据集规模适中且结构清晰，涵盖丰富文学体裁，为评估模型对长距离依赖和篇章级语义整合能力提供了标准化基准。

使用方法

使用LAMBADA时需以全文段落作为模型输入，通过遮蔽末尾词构建完形填空任务。评估阶段应分别计算开发集与测试集上的词预测准确率，重点关注模型对跨句语义线索的利用效能。研究人员可通过对比仅末端句子输入与全文输入的性能差异，量化模型对广域语境的依赖程度，进而推动长文本理解技术的发展。

背景与挑战

背景概述

在自然语言处理领域，长文本理解一直是核心研究难题。LAMBADA数据集由Denis Paperno等学者于2016年构建，旨在通过篇章级上下文预测任务评估计算模型的深层语言理解能力。该数据集源自BookCorpus文学文本，包含10,022个叙事段落，由意大利特伦托大学与西班牙庞培法布拉大学联合开发。其创新性在于要求模型必须捕捉跨句子的语义关联，而非依赖局部语境，显著推动了神经网络语言模型在长距离依赖建模方面的发展。

当前挑战

LAMBADA直面自然语言理解中长距离依赖建模的核心挑战，要求模型突破局部语境限制，整合篇章级信息进行目标词预测。构建过程中需克服多重困难：首先是从海量文学文本中精准提取符合人类推理特性的段落，确保仅凭末句无法推测而通读全文可解；其次需严格划分训练集与测试集的小说源，避免数据泄露；最后是保持叙事连贯性与语言复杂度的平衡，使数据集既能反映真实语言现象又具备可计算性。

常用场景

经典使用场景

在自然语言处理领域，LAMBADA数据集被广泛用于评估计算模型对长文本依赖关系的理解能力。该数据集通过叙事性段落构建测试环境，要求模型基于广泛上下文而非局部语句来预测段落末尾的目标词汇。这种设计有效检验了模型是否具备跨句子的语义整合与信息保持能力，成为衡量语言模型 discourse modeling 性能的经典基准。

衍生相关工作

基于LAMBADA的评估范式，衍生出多项经典研究工作。OpenAI的GPT系列模型曾将该数据集作为长文本理解能力的重要测试基准，而Google的BERT模型也通过在该数据集上的性能分析推动了注意力机制的优化。后续研究如Transformer-XL等专门针对长序列建模的架构，均使用LAMBADA作为核心评估指标之一。

数据集最近研究