five

nicholasKluge/lambada-pt-br

收藏
Hugging Face2024-07-09 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/nicholasKluge/lambada-pt-br
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是LAMBADA测试集的葡萄牙语(巴西)翻译版本,由OpenAI预处理。LAMBADA用于通过单词预测任务评估计算模型的文本理解能力。数据集包含叙事文本,特点是人类在阅读整个文本后能够猜测出最后一个单词,但如果只看到目标单词前的最后一句则无法猜测。成功完成LAMBADA任务的计算模型不能仅依赖局部上下文,而必须能够跟踪更广泛的语篇信息。数据集的语言为巴西葡萄牙语,采用Modified MIT许可证。

The LAMBADA-PT-BR dataset is a translated version (Portuguese-BR) of the LAMBADA test split as pre-processed by OpenAI. This dataset is used to evaluate the capabilities of computational models for text understanding by means of a word prediction task. LAMBADA is characterized by the fact that human subjects can guess the last word if they are exposed to the whole text, but not if they only see the last sentence preceding the target word. To succeed on LAMBADA, computational models cannot simply rely on local context, but must be able to keep track of information in the broader discourse. The dataset contains 5153 samples, in Brazilian Portuguese, and is licensed under the Modified MIT License.
提供机构:
nicholasKluge
原始信息汇总

LAMBADA-PT-BR 数据集概述

数据集概述

  • 名称: LAMBADA-PT-BR
  • 语言: 巴西葡萄牙语
  • 任务类别: 文本生成
  • 数据集大小: 1844684 字节
  • 下载大小: 1241703 字节
  • 数据集特征:
    • sentence: 字符串类型
    • last_word: 字符串类型
  • 数据分割:
    • train: 5153 个样本, 1844684 字节
  • 许可证: MIT
  • 配置:
    • default: 包含 train 数据文件
  • 数据文件路径: data/train-*
  • 数据集来源: 翻译自 LAMBADA 测试集,由 OpenAI 预处理
  • 数据集用途: 用于评估计算模型在文本理解中的能力,通过单词预测任务进行测试。模型需要理解整个文本的上下文,而不仅仅是局部上下文。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作