BAN-Cap
收藏arXiv2022-05-28 更新2024-06-21 收录
下载链接:
https://github.com/FaiyazKhan11/BAN-Cap
下载链接
链接失效反馈官方服务:
资源简介:
BAN-Cap数据集是由Shahjalal University of Science and Technology的研究团队开发的,旨在解决孟加拉语在自动图像字幕生成领域缺乏标准数据集的问题。该数据集扩展自Flickr8k,包含8091张图片,总计40455对英文-孟加拉语字幕,由精通两种语言的孟加拉语母语者进行标注。数据集内容丰富,涵盖多种图像字幕风格,适用于多模态机器翻译、视觉问答等研究领域,特别强调在孟加拉语-英语和英语-孟加拉语翻译中的应用。创建过程中,通过严格的标注和后处理确保数据质量。该数据集不仅支持图像字幕生成,还展示了其在多用途研究中的潜力,如神经机器翻译和文本增强技术。
提供机构:
Shahjalal University of Science and Technology, Sylhet, Bangladesh
创建时间:
2022-05-28



