five

swap-uniba/Extending-LVLMs-NonEnglish-Data

收藏
Hugging Face2026-01-01 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/swap-uniba/Extending-LVLMs-NonEnglish-Data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集与论文《将大型语言模型扩展到非英语语言的多模态》相关。提供了以下资源:LLaVA的意大利语和西班牙语对齐数据集(使用MadLad翻译)、MultiInstruct测试集和训练集的英语格式及意大利语和西班牙语翻译版本(使用MadLad和人工编写格式)、OmniDialog数据集的ImageDialog类型1子集的意大利语和西班牙语翻译版本、CrossModal3600数据集的图像描述和图像文本选择格式的意大利语和西班牙语翻译版本,以及LLaVA Instruct数据集的LLaVA Conv 58k子集的意大利语和西班牙语翻译版本。所有资源仅提供使用MadLad翻译的文本,原始图像需按各资源创建者的说明单独下载。

Resource associated to the paper "Extending Large Language Models to Multimodality for non-English Languages". It includes various resources such as alignment datasets, test sets, and training sets translated into Italian and Spanish using MadLad. The datasets are formatted for different tasks like image captioning, image text selection, and conversational tasks. The original images need to be downloaded separately as per the creators instructions.
提供机构:
swap-uniba
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作