Multi30k Dataset
收藏数据集概述
数据集名称
Multi30k Data Repository
数据集内容
- 原始文件:位于data/task1/raw。
- 分词文件:位于data/task1/tok,使用scripts/task1-tokenize.sh脚本处理。
数据集统计
- 训练集:
- 英语:29000句,377534词,平均每句13.0词。
- 德语:29000句,360706词,平均每句12.4词。
- 法语:29000句,409845词,平均每句14.1词。
- 捷克语:29000句,297212词,平均每句10.2词。
- 验证集:
- 英语:1014句,13308词,平均每句13.1词。
- 德语:1014句,12828词,平均每句12.7词。
- 法语:1014句,14381词,平均每句14.2词。
- 捷克语:1014句,10342词,平均每句10.2词。
- 测试集:
- 2016 Flickr:
- 英语:1000句,12968词,平均每句13.0词。
- 德语:1000句,12103词,平均每句12.1词。
- 法语:1000句,13988词,平均每句14.0词。
- 捷克语:1000句,10497词,平均每句10.5词。
- 2017 Flickr:
- 英语:1000句,11376词,平均每句11.4词。
- 德语:1000句,10758词,平均每句10.8词。
- 法语:1000句,12596词,平均每句12.6词。
- 2017 MSCOCO:
- 英语:461句,5239词,平均每句11.4词。
- 德语:461句,5158词,平均每句11.2词。
- 法语:461句,5710词,平均每句12.4词。
- 2016 Flickr:
引用信息
-
英语和德语数据:
@InProceedings{W16-3210, author = "Elliott, Desmond and Frank, Stella and Simaan, Khalil and Specia, Lucia", title = "Multi30K: Multilingual English-German Image Descriptions", booktitle = "Proceedings of the 5th Workshop on Vision and Language", year = "2016", publisher = "Association for Computational Linguistics", pages = "70--74", location = "Berlin, Germany", doi = "10.18653/v1/W16-3210", url = "http://www.aclweb.org/anthology/W16-3210" }
-
法语数据,模糊COCO评估数据,和2017测试数据:
@InProceedings{elliott-EtAl:2017:WMT, author = {Elliott, Desmond and Frank, Stella and Barrault, Lo"{i}c and Bougares, Fethi and Specia, Lucia}, title = {Findings of the Second Shared Task on Multimodal Machine Translation and Multilingual Image Description}, booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers}, month = {September}, year = {2017}, address = {Copenhagen, Denmark}, publisher = {Association for Computational Linguistics}, pages = {215--233}, url = {http://www.aclweb.org/anthology/W17-4718} }
-
捷克语数据:
@inproceedings{barrault2018findings, title={Findings of the Third Shared Task on Multimodal Machine Translation}, author={Barrault, Lo{"i}c and Bougares, Fethi and Specia, Lucia and Lala, Chiraag and Elliott, Desmond and Frank, Stella}, booktitle={Proceedings of the Third Conference on Machine Translation: Shared Task Papers}, pages={304--323}, year={2018} }




