DRISHTIKON

Name: DRISHTIKON
Creator: 印度理工学院帕特纳分校
Published: 2025-09-24 01:40:43
License: 暂无描述

arXiv2025-09-24 更新2025-09-25 收录

下载链接：

https://tinyurl.com/ikonDataset

下载链接

链接失效反馈

官方服务：

资源简介：

DRISHTIKON是一个专注于印度文化的多模态多语言基准数据集，旨在评估生成式AI系统的文化理解能力。该数据集涵盖了15种语言，包括所有州和联邦属地，并包含了超过64,000个对齐的文本-图像对。数据集捕捉了丰富的文化主题，包括节日、服饰、美食、艺术形式和历史遗产等。DRISHTIKON填补了包容性AI研究中的一个重要空白，为推进文化意识强的、多模态的语言技术提供了一个强大的测试平台。

DRISHTIKON is a multimodal, multilingual benchmark dataset focused on Indian culture, designed to evaluate the cultural comprehension capabilities of generative AI systems. It covers 15 languages, spans all Indian states and union territories, and contains over 64,000 aligned text-image pairs. The dataset captures a rich range of cultural themes including festivals, traditional attire, cuisine, art forms, historical heritage and more. DRISHTIKON fills a critical gap in inclusive AI research, serving as a robust testbed for advancing culturally-aware, multimodal language technologies.

提供机构：

印度理工学院帕特纳分校

创建时间：

2025-09-24

搜集汇总

数据集介绍

构建方式

DRISHTIKON数据集的构建采用了系统化的多阶段流程，以权威文化资源库、国家旅游门户和学术典藏为基础进行知识整合。通过半自动化生成与人工校验相结合的方式，精心设计了64,288个多模态文本-图像对，涵盖印度全部28个邦和8个中央直辖区。每个多选问题均经过双轮验证机制确保事实准确性与文化敏感性，并采用分层抽样策略平衡地域与主题分布，最终通过多语言翻译框架扩展至15种印度语言，形成具有文化纵深的多模态评测基准。

特点

该数据集的核心特征体现在其前所未有的文化覆盖广度与细粒度标注体系。作为首个专注印度文化的多模态多语言基准，它系统收录了服饰、节庆、饮食、艺术形式等16类文化属性，并通过720个核心问题的推理增强机制衍生出多跳推理、文化常识与类比推理三类高阶认知任务。独特的视觉-文本对齐结构使模型需同时处理地域性视觉符号与多语言文化语境，而涵盖高资源与低资源语言的平衡设计则有效揭示了模型在文化认知方面的能力边界。

使用方法

该数据集支持零样本与思维链双模式评测，研究者可通过标准化提示模板将图像-问题对输入视觉语言模型进行多选答案生成。评测时需保持224×224及以上图像分辨率，并依据模型架构调整最大令牌长度参数。数据集提供的结构化标签支持按语言、地域、文化属性等维度进行切片分析，便于开展模型在特定文化场景下的细粒度能力诊断。公开的推理代码库可实现自动化准确率计算与错误模式分析，为文化认知研究提供可复现的实验框架。

背景与挑战

背景概述

DRISHTIKON数据集于2025年由印度理工学院帕特纳分校等机构联合推出，是首个专注于印度文化的多模态多语言基准测试。该数据集旨在评估生成式AI系统对印度多元文化的理解能力，覆盖印度全部28个邦和8个中央直辖区，包含15种语言环境下的64,288个图文对齐样本。研究团队通过系统化采集节日庆典、传统服饰、地方美食、艺术形式等文化要素，构建了细粒度的文化知识体系，填补了现有基准测试在文化特异性与多模态融合方面的空白。该数据集的建立为促进文化包容性人工智能研究提供了重要基础设施，对推动多语言视觉语言模型的文化认知能力具有里程碑意义。

当前挑战

DRISHTIKON面临的领域挑战主要体现在多模态文化推理任务中，模型需同时处理视觉符号与语言表述的深层文化关联，尤其在低资源语言和边缘文化传统上表现薄弱。构建过程中的技术挑战包括：多语言翻译需保持文化术语的语义准确性，如地区特色食物名称的跨语言适配；知识标注需平衡36个地区的文化代表性，避免主流文化遮蔽地方性知识；图像-文本对齐需克服视觉元素的多义性，确保文化符号的精确解读。此外，数据采集需解决文化敏感性与版权合规的双重约束，而推理类问题的设计需突破表层识别，构建具有文化深度的多跳推理链条。

常用场景

经典使用场景

在跨文化人工智能研究领域，DRISHTIKON数据集作为首个专注于印度文化的多模态多语言基准测试工具，其经典应用场景主要体现为系统性评估视觉语言模型在多元文化语境下的理解能力。该数据集通过6.4万余个经过精细标注的文本-图像对，覆盖印度全境36个邦和中央直辖区，为研究者提供了检验模型在服饰、节庆、饮食、艺术等15个文化维度表现的标准实验平台。特别是在零样本和思维链提示两种范式下，研究人员能够精准测量模型对低资源语言及边缘文化传统的认知边界，为文化适应性AI的发展奠定评估基础。

衍生相关工作

该数据集的发布催生了多项具有影响力的衍生研究。在模型架构方面，启发开发了如Maya等专注于印度文化的轻量化多模态模型；在评估方法论上，其文化分类体系被后续研究如CulturalBench、GIMMICK等国际基准采纳扩展。针对其揭示的语言资源不平衡问题，学术界涌现出如IndiBias等偏差检测数据集，以及基于链式思维的文化推理增强技术。这些工作共同构成了面向全球南方文化的AI评估生态体系。

数据集最近研究