Multi30k Dataset|多语言图像描述数据集|机器学习数据集
收藏数据集概述
名称: Multi30k Data Repository
数据结构:
- Task 1:
- Raw files: 位于
data/task1/raw - Tokenized files: 位于
data/task1/tok,使用脚本scripts/task1-tokenize.sh进行预处理
- Raw files: 位于
数据集统计:
- 训练集:
- 英语 (en): 29000 句,377534 词,平均每句13.0词
- 德语 (de): 29000 句,360706 词,平均每句12.4词
- 法语 (fr): 29000 句,409845 词,平均每句14.1词
- 捷克语 (cs): 29000 句,297212 词,平均每句10.2词
- 验证集:
- 英语 (en): 1014 句,13308 词,平均每句13.1词
- 德语 (de): 1014 句,12828 词,平均每句12.7词
- 法语 (fr): 1014 句,14381 词,平均每句14.2词
- 捷克语 (cs): 1014 句,10342 词,平均每句10.2词
- 测试集:
- 2016 Flickr:
- 英语 (en): 1000 句,12968 词,平均每句13.0词
- 德语 (de): 1000 句,12103 词,平均每句12.1词
- 法语 (fr): 1000 句,13988 词,平均每句14.0词
- 捷克语 (cs): 1000 句,10497 词,平均每句10.5词
- 2017 Flickr:
- 英语 (en): 1000 句,11376 词,平均每句11.4词
- 德语 (de): 1000 句,10758 词,平均每句10.8词
- 法语 (fr): 1000 句,12596 词,平均每句12.6词
- 2017 MSCOCO:
- 英语 (en): 461 句,5239 词,平均每句11.4词
- 德语 (de): 461 句,5158 词,平均每句11.2词
- 法语 (fr): 461 句,5710 词,平均每句12.4词
- 2016 Flickr:
评估:
- 可使用 Codalab 竞赛评估模型在2018测试集上的表现。
视觉特征:
- 预提取的视觉特征可从 Google Drive 下载。
- 原始图像可通过 此链接 请求。
引用:
-
英语和德语数据:
@InProceedings{W16-3210, author = "Elliott, Desmond and Frank, Stella and Simaan, Khalil and Specia, Lucia", title = "Multi30K: Multilingual English-German Image Descriptions", booktitle = "Proceedings of the 5th Workshop on Vision and Language", year = "2016", publisher = "Association for Computational Linguistics", pages = "70--74", location = "Berlin, Germany", doi = "10.18653/v1/W16-3210", url = "http://www.aclweb.org/anthology/W16-3210" }
-
法语数据、模糊COCO评估数据和2017测试数据:
@InProceedings{elliott-EtAl:2017:WMT, author = {Elliott, Desmond and Frank, Stella and Barrault, Lo"{i}c and Bougares, Fethi and Specia, Lucia}, title = {Findings of the Second Shared Task on Multimodal Machine Translation and Multilingual Image Description}, booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers}, month = {September}, year = {2017}, address = {Copenhagen, Denmark}, publisher = {Association for Computational Linguistics}, pages = {215--233}, url = {http://www.aclweb.org/anthology/W17-4718} }
-
捷克语数据:
@inproceedings{barrault2018findings, title={Findings of the Third Shared Task on Multimodal Machine Translation}, author={Barrault, Lo{"i}c and Bougares, Fethi and Specia, Lucia and Lala, Chiraag and Elliott, Desmond and Frank, Stella}, booktitle={Proceedings of the Third Conference on Machine Translation: Shared Task Papers}, pages={304--323}, year={2018} }




