MultiSubs (MultiSubs: A Large-scale Multimodal and Multilingual Dataset)
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/MultiSubs
下载链接
链接失效反馈官方服务:
资源简介:
MultiSubs 是从 OPUS OpenSubtitles 数据集收集的多语言字幕数据集,该数据集又来自 opensubtitles.org。我们在字幕中用网络图像补充了一些文本片段(此版本中的视觉显着名词),其中片段的词义已使用跨语言方法消除歧义。我们引入了填空任务和词汇翻译任务来演示数据集的实用性。有关数据集和任务的更详细描述,请参阅我们的论文。 Multisubs 将有利于单词视觉基础的研究,尤其是在自由形式句子的上下文中。
提供机构:
OpenDataLab
创建时间:
2022-05-23



