EleutherAI/lambada_openai

Name: EleutherAI/lambada_openai
Creator: EleutherAI
Published: 2025-07-10 09:58:07
License: 暂无描述

Hugging Face2025-07-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/EleutherAI/lambada_openai

下载链接

链接失效反馈

官方服务：

资源简介：

LAMBADA OpenAI数据集是用于评估文本理解能力的计算模型的数据集，包含了英文以及德语、西班牙语、法语和意大利语的翻译版本。它通过单词预测任务来测试模型是否能够在更广泛的语篇中跟踪信息，而不仅仅依赖局部上下文。

The LAMBADA OpenAI dataset is a dataset for evaluating the text understanding capabilities of computational models, including English and translations in German, Spanish, French, and Italian. It tests models on a word prediction task to see if they can track information in a broader discourse, not just rely on local context.

提供机构：

EleutherAI

原始信息汇总

数据集概述

名称: LAMBADA OpenAI
创建者: 机器生成
许可证: MIT
多语言性: 翻译（德语、英语、西班牙语、法语、意大利语）
任务类型: 语言建模
来源数据集: LAMBADA
大小: 1K<n<10K

数据集详情

配置名称: default, de, en, es, fr, it
特征:
- 名称: text
- 数据类型: string
分割:
- 名称: test
- 示例数量: 5153
- 字节数:
  - default: 1709449
  - de: 1904576
  - en: 1709449
  - es: 1821735
  - fr: 1948795
  - it: 1813420
- 下载大小:
  - default: 1819752
  - de: 1985231
  - en: 1819752
  - es: 1902349
  - fr: 2028703
  - it: 1894613
- 数据集大小: 与字节数相同

数据集用途

评估: 用于评估计算模型通过单词预测任务理解文本的能力。
特点: LAMBADA数据集包含叙事文本，要求模型不能仅依赖局部上下文，而必须能够跟踪更广泛的论述信息。

语言

英语
德语
西班牙语
法语
意大利语

源数据处理

翻译: 非英语语言的数据分割由Google Translate生成。

搜集汇总

数据集介绍

构建方式

LAMBADA OpenAI数据集是由机器生成的文本构成的，旨在评估计算模型在文本理解方面的能力。该数据集通过单词预测任务，将叙事文本的特性整合其中，使得计算模型必须能够把握更广泛的语篇信息，而不仅仅依赖于局部上下文。数据集包含了英语以及德语、西班牙语、法语和意大利语的机器翻译版本，这些翻译版本是通过Google Translate生成的。

特点

该数据集的主要特点是它包含了一个用于评估文本理解能力的单词预测任务。LAMBADA文本具有独特的性质，即当人类主体接触到整个文本时，能够预测出最后一个单词，但如果仅看到目标单词前的最后一个句子，则无法预测。这一特性要求计算模型必须具备跟踪更广泛语篇信息的能力。此外，数据集提供了多种语言的版本，增加了其适用性和多样性。

使用方法

使用LAMBADA OpenAI数据集时，用户可以从HuggingFace的存储库中下载相应的语言配置文件。每个配置文件包含了测试分割的数据，这些数据以Parquet格式存储。用户可以通过读取这些文件中的'text'字段来获取文本数据，进而用于训练或评估自然语言处理模型。为了确保数据完整性，提供了每个文件的SHA-256校验和，用户在使用前可以进行校验。

背景与挑战

背景概述

LAMBADA OpenAI数据集是在自然语言处理领域用于评估计算模型文本理解能力的一项重要资源。该数据集由OpenAI基于LAMBADA测试集进行预处理而创建，旨在通过单词预测任务来测试模型对文本的理解。LAMBADA的特点是，人类主体在阅读完整文本后能够预测出最后一个单词，但如果仅看到目标单词前的最后一个句子则无法预测。此数据集的创建时间为2019年，主要研究人员包括Alec Radford、Jeff Wu等人，其对自然语言处理领域，尤其是在理解长距离依赖和上下文追踪方面的研究产生了深远影响。LAMBADA OpenAI数据集包含英语以及德语、西班牙语、法语和意大利语的机器翻译版本，遵循修改后的MIT许可证发布，并被广泛引用于相关学术论文中。

当前挑战

该数据集在构建过程中遇到的挑战主要包括多语言版本的准确翻译，以及确保数据集在预处理后能够适用于评估计算模型对复杂文本理解的能力。研究者在创建多语言版本时，需要克服机器翻译的局限性，以保证评估的公平性和准确性。此外，LAMBADA测试所固有的挑战在于，模型必须能够理解并记住文本中的广泛信息，而不仅仅是局部的上下文，这要求模型具备较高的记忆和推理能力。

常用场景

经典使用场景

在自然语言处理领域，LAMBADA OpenAI数据集的经典使用场景主要在于评估计算模型对文本理解的能力。该数据集通过单词预测任务，检验模型是否能够理解和把握文本的上下文信息，而不仅仅是局部语境。

衍生相关工作

基于LAMBADA OpenAI数据集，学术界衍生出了一系列相关工作，如对多种语言的文本理解能力研究、跨语言模型的性能评估等。这些研究进一步拓展了LAMBADA数据集的应用范围，促进了自然语言处理技术的进步。

数据集最近研究