Kaleidoscope
收藏arXiv2025-04-10 更新2025-04-11 收录
下载链接:
https://hf.co/datasets/CohereForAI/kaleidoscope
下载链接
链接失效反馈官方服务:
资源简介:
Kaleidoscope是一个大规模的多语言多模态考试题库,由Cohere For AI Community创建,包含18种语言的20911个选择题。该数据集旨在评估视觉语言模型在多语言和多模态环境下的表现,涵盖了从高资源语言到低资源语言,以及从数学、社会学到医学和驾驶执照等14个不同的学科领域。数据集通过全球范围内的开源科学合作收集,确保了语言和文化的真实性。
Kaleidoscope is a large-scale multilingual multimodal exam question bank created by the Cohere For AI Community, containing 20,911 multiple-choice questions across 18 languages. This dataset aims to evaluate the performance of vision-language models in multilingual and multimodal settings, covering languages from high-resource to low-resource varieties, as well as 14 distinct disciplines ranging from mathematics, social sciences, medicine to driver's license tests. The dataset was collected through global open-source scientific collaborations, ensuring linguistic and cultural authenticity.
提供机构:
Cohere For AI Community
创建时间:
2025-04-10
搜集汇总
数据集介绍

构建方式
Kaleidoscope数据集的构建采用了全球开放科学协作模式,通过18个国家的研究人员合作收集了20,911道原语言多选题,涵盖18种语言和14个学科领域。数据收集过程严格遵循三项核心设计原则:多模态性(55%问题需要图像理解)、多语言性(包含高资源和低资源语言)以及多样性(覆盖从STEM到人文社科的多领域知识)。数据处理采用两阶段流程:首先使用PDF解析器和OCR技术提取原始内容,随后通过大型语言模型和人工验证确保图文对齐和质量控制。
使用方法
使用Kaleidoscope时建议采用三步法:1) 任务设计上,对于闭源模型推荐零样本思维链提示法,要求模型输出<ANSWER>标签包裹的选项;对开源小模型则建议直接生成JSON格式答案以避免解析错误。2) 评估指标上,除整体准确率外应分别计算纯文本和多模态问题的表现差异,同时跟踪格式错误率以识别模型指令遵循问题。3) 深度分析时可利用细粒度元数据,比如比较模型在拉丁文字与非拉丁文字、不同图像类型(图表vs照片)或学科领域(STEMvs人文)的表现差异,揭示能力边界。数据集官网和HuggingFace平台提供了标准化的评估脚本和基线结果。
背景与挑战
背景概述
Kaleidoscope是一个大规模的多语言多模态基准测试数据集,由Cohere For AI等机构的研究团队于2025年4月发布,旨在解决当前视觉语言模型(VLMs)评估中存在的语言和文化多样性不足的问题。该数据集包含18种语言的20,911道多选题,涵盖14个学科领域,其中55%的问题需要结合图像理解来解答。Kaleidoscope通过全球开放科学合作构建,确保了语言和文化的真实性,为评估多语言多模态模型提供了全面的框架。
当前挑战
Kaleidoscope面临的挑战主要包括:1) 领域问题的挑战:当前VLMs在低资源语言和复杂多模态场景(如STEM领域)中表现不佳,且对非拉丁语系语言的适应性较差;2) 构建过程的挑战:确保数据集的多样性和平衡性,包括覆盖不同语言、文化和学科领域,同时避免翻译带来的文化偏差。此外,数据收集和标注过程中的质量控制,以及图像与文本的对齐问题也是构建过程中的主要挑战。
常用场景
经典使用场景
Kaleidoscope数据集作为当前最全面的多语言视觉-语言模型评估基准,其经典使用场景主要集中在跨模态推理能力的系统性测评。该数据集通过覆盖18种语言和14个学科领域的20,911道多选题,为研究者提供了评估模型在真实考试情境下处理图文混合信息能力的标准化平台。特别是在低资源语言和复杂STEM领域的性能评估方面,该数据集通过文化原生的试题设计,有效避免了传统翻译数据集的文化偏差问题。
解决学术问题
该数据集主要解决了三大核心学术问题:首先,突破了传统评估以英语为中心的局限,建立了覆盖高/中/低资源语言的均衡测评体系;其次,通过55%的图文关联题目设计,系统评估了视觉-语言模态的融合能力;最后,针对现有基准缺乏文化适应性的痛点,采用全球协作的原创试题采集方式,确保了语言表达和文化背景的真实性。其实验结果揭示了当前模型在非拉丁语系、STEM领域和复杂图表理解等方面存在的显著性能差距。
实际应用
在实际应用层面,Kaleidoscope为多语言教育科技产品的开发提供了关键评估工具。例如在线考试系统的智能阅卷、跨文化自适应学习平台的构建,以及全球化智能助教系统的研发。其包含的驾驶执照、职业认证等实用型考题,可直接用于评估AI系统在真实认证场景中的可靠性。医疗机构可借助其医学试题评估多模态诊断辅助系统的临床知识掌握程度。
数据集最近研究
最新研究方向
Kaleidoscope数据集作为当前最全面的多语言视觉-语言模型评估基准,其最新研究方向聚焦于解决传统英语中心化评测框架的局限性。该数据集通过覆盖18种语言和14个学科的20,911道多选题,系统考察模型在多模态推理、跨文化理解和低资源语言处理等方面的能力。前沿探索主要围绕三个维度展开:首先,针对视觉-语言模型在STEM领域表现显著弱于人文学科的现象,研究团队正在开发融合符号推理和科学图解解析的增强型评估框架;其次,通过分析拉丁语系与非拉丁语系脚本间的性能差异(平均准确率差距达21.6%),推动语种平衡的数据增强策略和跨语言迁移学习研究;最后,基于55%题目必须结合图像解答的特性,深入探究模型在图表解析、公式识别等复杂视觉理解任务中的瓶颈。该数据集通过全球20个国家研究者的协作构建,其文化真实性标注体系为构建包容性AI系统提供了重要参照,相关发现已被用于改进GPT-4o、Claude 3.5等主流模型的跨模态推理能力。
相关研究论文
- 1Kaleidoscope: In-language Exams for Massively Multilingual Vision EvaluationCohere For AI Community · 2025年
以上内容由遇见数据集搜集并总结生成



