turing-motors/Cauldron-JA
收藏Hugging Face2024-10-24 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/turing-motors/Cauldron-JA
下载链接
链接失效反馈官方服务:
资源简介:
**Cauldron-JA** 是一个视觉语言模型数据集,通过 DeepL API 将 The Cauldron 翻译成日语。The Cauldron 是一个包含 50 个视觉语言数据集(仅训练集)的大规模集合,用于微调视觉语言模型 Idefics2。为了创建日语视觉语言数据集,与 OCR、编码和图表相关的数据集被排除在外,因为将它们翻译成日语会导致数据一致性的损失。最终,Cauldron-JA 由 **44 个子数据集** 组成。
The Cauldron-JA is a Vision Language Model dataset that translates The Cauldron into Japanese using the DeepL API. The Cauldron is a massive collection of 50 vision-language datasets used for fine-tuning vision-language models. The Cauldron-JA excludes datasets related to OCR, coding, and graphs to maintain data consistency. It consists of 44 sub-datasets and is used for visual question answering tasks.
提供机构:
turing-motors



