lambada
收藏数据集概述:LAMBADA Clone
基本描述
LAMBADA用于评估计算模型通过词语预测任务进行文本理解的能力。该数据集包含叙事性段落,其特点是人类受试者在接触整个段落时能够猜出最后一个词,但仅看到目标词之前的最后一个句子时则无法猜出。要在LAMBADA上取得成功,计算模型不能仅仅依赖局部上下文,而必须能够跟踪更广泛话语中的信息。
数据组成
- 来源:数据从BookCorpus中提取。
- 规模:包含10,022个段落。
- 划分:
- 开发集:4,869个段落
- 测试集:5,153个段落
- 训练数据:包含2,662部小说的全文(与开发集和测试集不相交),总计2.03亿个单词。
语言信息
- 语言:英语(en)
许可信息
- 许可证:CC BY 4.0(知识共享署名4.0国际许可协议)
引用信息
如需引用,请使用以下格式: bibtex @InProceedings{paperno-EtAl:2016:P16-1, author = {Paperno, Denis and Kruszewski, Germ{a}n and Lazaridou, Angeliki and Pham, Ngoc Quan and Bernardi, Raffaella and Pezzelle, Sandro and Baroni, Marco and Boleda, Gemma and Fernandez, Raquel}, title = {The {LAMBADA} dataset: Word prediction requiring a broad discourse context}, booktitle = {Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)}, month = {August}, year = {2016}, address = {Berlin, Germany}, publisher = {Association for Computational Linguistics}, pages = {1525--1534}, url = {http://www.aclweb.org/anthology/P16-1144} }




