ltg/lambada-context

Hugging Face2023-10-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ltg/lambada-context

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - text-generation language: - en pretty_name: LAMBADA size_categories: - 1K<n<10K source_datasets: - https://huggingface.co/datasets/EleutherAI/lambada_openai --- ## Dataset Description - **Repository:** [openai/gpt2](https://github.com/openai/gpt-2) - **Paper:** Radford et al. [Language Models are Unsupervised Multitask Learners](https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf) ### Dataset Summary This is the LAMBADA test split modified for bidirectional language models (for example BERT). The original is appended by punctuation symbols (for example `."`), as predicted by GPT-2 (small). The original is the LAMBADA test split [as pre-processed by OpenAI](https://huggingface.co/datasets/EleutherAI/lambada_openai), LAMBADA is used to evaluate the capabilities of computational models for text understanding by means of a word prediction task. LAMBADA is a collection of narrative texts sharing the characteristic that human subjects are able to guess their last word if they are exposed to the whole text, but not if they only see the last sentence preceding the target word. To succeed on LAMBADA, computational models cannot simply rely on local context, but must be able to keep track of information in the broader discourse. ### Languages English ### Source Data [EleutherAI/lambada_openai](https://huggingface.co/datasets/EleutherAI/lambada_openai) ### Licensing License: [Modified MIT](https://github.com/openai/gpt-2/blob/master/LICENSE) ### Citation ```bibtex @article{radford2019language, title={Language Models are Unsupervised Multitask Learners}, author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya}, year={2019} } ``` ```bibtex @misc{ author={Paperno, Denis and Kruszewski, Germán and Lazaridou, Angeliki and Pham, Quan Ngoc and Bernardi, Raffaella and Pezzelle, Sandro and Baroni, Marco and Boleda, Gemma and Fernández, Raquel}, title={The LAMBADA dataset}, DOI={10.5281/zenodo.2630551}, publisher={Zenodo}, year={2016}, month={Aug} } ```

许可证：MIT许可证任务类别： - 文本生成语言： - 英语显示名称：LAMBADA 规模类别： - 1000 < 样本量 < 10000 源数据集： - https://huggingface.co/datasets/EleutherAI/lambada_openai --- ## 数据集说明 - **代码仓库：** [openai/gpt-2](https://github.com/openai/gpt-2) - **相关论文：** Radford 等人发表的《Language Models are Unsupervised Multitask Learners》（https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf） ### 数据集概述本数据集为适配双向语言模型（如BERT）而修改的LAMBADA测试划分集。原始数据集已按照GPT-2（小尺寸版本）的预测结果补充了标点符号（如`.".`），该修改版的原始数据为OpenAI预处理后的LAMBADA测试划分集（https://huggingface.co/datasets/EleutherAI/lambada_openai）。 LAMBADA数据集通过单词预测任务，用于评估计算模型的文本理解能力。LAMBADA由多篇叙事文本组成，其核心特征为：人类受试者若阅读完整文本，则可准确猜出目标单词；但若仅查看目标词之前的最后一个句子，则无法完成预测。若要在LAMBADA任务中取得优异性能，计算模型不能仅依赖局部上下文，还需具备追踪更广泛语篇中信息的能力。 ### 语言英语 ### 源数据 [EleutherAI/lambada_openai](https://huggingface.co/datasets/EleutherAI/lambada_openai) ### 许可协议许可协议：[修改版MIT许可证](https://github.com/openai/gpt-2/blob/master/LICENSE) ### 引用信息 bibtex @article{radford2019language, title={Language Models are Unsupervised Multitask Learners}, author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya}, year={2019} } bibtex @misc{ author={Paperno, Denis and Kruszewski, Germán and Lazaridou, Angeliki and Pham, Quan Ngoc and Bernardi, Raffaella and Pezzelle, Sandro and Baroni, Marco and Boleda, Gemma and Fernández, Raquel}, title={The LAMBADA dataset}, DOI={10.5281/zenodo.2630551}, publisher={Zenodo}, year={2016}, month={Aug} }

提供机构：

ltg

原始信息汇总

数据集描述

数据集概述

名称: LAMBADA
任务类别: 文本生成
语言: 英语
大小类别: 1K<n<10K
源数据集: EleutherAI/lambada_openai

LAMBADA 用于评估计算模型通过单词预测任务进行文本理解的能力。LAMBADA 是一系列叙事文本的集合，其特点是人类受试者在接触整个文本时能够猜测其最后一个单词，但如果只看到目标词之前的最后一个句子则不能。为了在 LAMBADA 上取得成功，计算模型不能仅依赖局部上下文，而必须能够跟踪更广泛话语中的信息。

语言

英语

许可

许可: Modified MIT

引用

bibtex @article{radford2019language, title={Language Models are Unsupervised Multitask Learners}, author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya}, year={2019} }

bibtex @misc{ author={Paperno, Denis and Kruszewski, Germán and Lazaridou, Angeliki and Pham, Quan Ngoc and Bernardi, Raffaella and Pezzelle, Sandro and Baroni, Marco and Boleda, Gemma and Fernández, Raquel}, title={The LAMBADA dataset}, DOI={10.5281/zenodo.2630551}, publisher={Zenodo}, year={2016}, month={Aug} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，LAMBADA数据集作为评估模型文本理解能力的重要基准，其构建过程体现了对叙事文本深层结构的精心考量。该数据集源自EleutherAI/lambada_openai的测试分割，并针对双向语言模型（如BERT）进行了专门调整。具体而言，原始文本通过GPT-2（小型）模型预测并附加了标点符号（例如`."`），以增强上下文的连贯性。这一修改旨在模拟人类在完整叙事背景下推测目标词的能力，确保模型必须依赖广泛的语篇信息而非局部语境，从而精准捕捉文本的全局依赖性。

使用方法

使用LAMBADA数据集时，研究者通常将其应用于语言模型的性能评估，特别是针对文本理解与生成任务。数据集以标准格式提供，用户可直接加载并进行预测任务，通过对比模型输出与真实末尾词汇的匹配度来衡量模型效果。在实际操作中，建议结合双向语言模型（如BERT）或生成式模型（如GPT系列）进行测试，以验证模型是否能够有效整合全局上下文信息。此外，数据集的许可协议为修改版MIT，确保了使用的灵活性与合规性，为学术研究提供了可靠的数据支持。

背景与挑战

背景概述

LAMBADA数据集于2016年由Denis Paperno等学者联合构建，旨在评估计算模型在文本理解方面的深层能力。该数据集聚焦于叙事性文本，其核心研究问题在于探究模型是否能够超越局部语境，通过把握长距离依赖与全局话语信息来预测文本的最后一个词。这一设计灵感源于人类在阅读完整篇章时能够轻松推断结尾词汇，而仅凭最后一句则难以完成，从而推动了语言模型从浅层模式匹配向深层语义推理的演进。作为自然语言处理领域的重要评测基准，LAMBADA不仅促进了如GPT-2等生成式模型的性能验证，也为后续双向语言模型如BERT的适应性改进提供了关键数据支持，深刻影响了语言理解研究的发展轨迹。

当前挑战

LAMBADA数据集所针对的核心挑战在于测试模型对长距离上下文依赖的捕捉能力，要求模型必须整合超越局部句子的全局话语信息，而非仅依赖邻近词汇统计特征进行预测，这直接指向了传统语言模型在篇章级语义连贯性建模上的局限。在构建过程中，数据采集面临叙事文本的筛选难题，需确保每段文本的结尾词仅通过完整上下文才可合理推断，同时避免文化偏见与领域特异性干扰。此外，为适配双向语言模型的评测，原始数据需经过额外预处理，如通过GPT-2预测添加标点符号，这一过程引入了对预处理模型可靠性与一致性的依赖，可能影响数据集的纯净性与评估的公平性。

常用场景

经典使用场景

在自然语言处理领域，LAMBADA数据集被广泛用于评估语言模型的长距离依赖理解能力。该数据集通过叙事文本构建，要求模型基于完整上下文预测最后一个单词，而非仅依赖局部句子信息。这一设计巧妙模拟了人类阅读中对全局语境的把握，成为衡量模型是否具备真正文本理解能力的重要基准。经典使用场景包括测试双向语言模型如BERT在捕捉长距离语义关联时的表现，验证模型能否超越表层统计模式，深入理解叙事逻辑与连贯性。

解决学术问题

LAMBADA数据集有效解决了语言模型评估中局部偏见与浅层统计依赖的学术难题。传统评估方法往往局限于短上下文窗口，难以区分模型是否真正理解文本深层语义。该数据集通过强制要求模型整合跨句信息，推动研究者开发能够维持长距离依赖的架构与训练策略。其意义在于确立了文本理解评估的新范式，促使学界关注模型的全局推理能力，对提升语言模型的认知水平产生了深远影响。

实际应用

在实际应用层面，LAMBADA数据集所启发的长文本理解技术已渗透至多个现实场景。智能对话系统利用类似机制追踪多轮对话历史，确保回复的连贯性与相关性；文档自动摘要工具通过捕捉全文脉络提取关键信息；教育科技领域则借助此类评估优化阅读辅助系统，帮助学生理解复杂叙事结构。这些应用共同体现了对文本深层逻辑把握的需求，推动了自然语言处理技术向更人性化、更智能的方向演进。

数据集最近研究