five

MultiSubs (MultiSubs: A Large-scale Multimodal and Multilingual Dataset)

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/MultiSubs
下载链接
链接失效反馈
官方服务:
资源简介:
MultiSubs 是从 OPUS OpenSubtitles 数据集收集的多语言字幕数据集,该数据集又来自 opensubtitles.org。我们在字幕中用网络图像补充了一些文本片段(此版本中的视觉显着名词),其中片段的词义已使用跨语言方法消除歧义。我们引入了填空任务和词汇翻译任务来演示数据集的实用性。有关数据集和任务的更详细描述,请参阅我们的论文。 Multisubs 将有利于单词视觉基础的研究,尤其是在自由形式句子的上下文中。

MultiSubs is a multilingual subtitle dataset collected from the OPUS OpenSubtitles corpus, which itself originates from opensubtitles.org. We supplemented some text segments (visually salient nouns in this version) from the subtitles with web images, where the meanings of these segments have been disambiguated using cross-lingual methods. We introduce fill-in-the-blank tasks and lexical translation tasks to demonstrate the practical utility of this dataset. For a more detailed description of the dataset and the tasks, please refer to our associated paper. MultiSubs will facilitate research on visual grounding of words, particularly in the context of free-form sentences.
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MultiSubs是一个大规模多模态多语言数据集,基于OPUS OpenSubtitles字幕数据构建,通过补充网络图像来增强文本片段,用于单词视觉基础研究。该数据集由伦敦帝国理工学院和马托格罗索联邦大学于2021年发布,支持填空和词汇翻译等任务,遵循CC BY 4.0许可协议。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作