SANSKRITI
收藏arXiv2025-06-18 更新2025-06-22 收录
下载链接:
https://drive.google.com/drive/folders/1UEkhrcA3-aPQTjTwSIgBC8EbqSS8ntDn?usp=sharing
下载链接
链接失效反馈官方服务:
资源简介:
SANSKRITI是一个全面的文化基准数据集,旨在评估语言模型对印度丰富文化多样性的理解能力。该数据集包含21,853个精心策划的问答对,涵盖28个州和8个联邦属地,是测试印度文化知识最大的数据集。它覆盖了印度文化的16个关键属性,包括仪式和庆典、历史、旅游、美食、舞蹈和音乐、服装、语言、艺术、节日、宗教、医药、交通、体育、夜生活和名人,全面展现了印度的文化图景。通过提供广泛、丰富和多样化的数据集,SANSKRITI为评估和改进语言模型的文化理解能力设定了新的标准。
SANSKRITI is a comprehensive cultural benchmark dataset designed to evaluate language models' capacity to comprehend India's rich cultural diversity. It contains 21,853 carefully curated question-answer pairs, covering 28 states and 8 Union Territories of India, making it the largest dataset available for testing Indian cultural knowledge. It encompasses 16 core attributes of Indian culture, including rituals and celebrations, history, tourism, cuisine, dance and music, traditional attire, languages, arts, festivals, religions, traditional medicine, transportation, sports, nightlife, and public figures, comprehensively portraying India's multifaceted cultural landscape. By offering a broad, rich and diverse dataset, SANSKRITI sets a new standard for evaluating and enhancing the cultural comprehension capabilities of language models.
提供机构:
印度理工学院帕特纳分校计算机科学与工程系
创建时间:
2025-06-18
搜集汇总
数据集介绍

构建方式
SANSKRITI数据集的构建过程体现了严谨的学术态度与跨学科协作精神。研究团队采用多源数据采集策略,从维基百科、Ritiriwaz等六个权威平台系统性地获取印度文化相关数据,确保覆盖28个邦和8个中央直辖区的文化特征。通过40名专业标注员组成的四支专项小组,采用交叉验证机制对21,853个问题-答案对进行精细标注,涵盖关联预测、国家预测等四种题型。标注过程严格遵循文化敏感性准则,并建立三级质量把控体系,包括初始标注、跨组验证和最终审核,有效保障了数据集的代表性与准确性。
特点
该数据集最显著的特点是具有文化维度上的系统性和地理覆盖上的全面性。作为目前规模最大的印度文化知识评估基准,其21,853个问题涵盖仪式典礼、历史、旅游等16个关键文化属性,形成多维度的文化评估体系。问题设计采用事实型多选题形式,通过精心设计的干扰项确保评估效度。数据集特别关注文化多样性表征,不仅覆盖主流文化现象,还包含东北部各邦等边缘地区的文化特征,并采用词云可视化技术直观展现各文化属性的分布权重。这种细粒度的文化属性分类与广域的地理覆盖相结合,为评估语言模型的文化认知能力提供了立体化的测量框架。
使用方法
SANSKRITI数据集的使用遵循标准化评估范式,主要采用零样本学习的多选问答形式。研究者可通过四种预设题型(国家预测、邦预测等)对语言模型进行系统测试,使用贪婪解码策略获取选项概率分布,以最高概率选项作为模型预测结果。评估指标采用准确率单一度量,确保结果可比性。对于开源模型建议使用16位浮点精度运行,而商业API模型则直接调用其预测接口。该数据集特别适合进行文化认知能力的细粒度分析,用户可按州邦、文化属性或问题类型三个维度对模型表现进行切片分析,从而识别模型在特定文化语境中的认知盲区。所有数据资源已公开提供,支持后续研究的复现与拓展。
背景与挑战
背景概述
SANSKRITI数据集由印度理工学院帕特纳分校的Arijit Maji等人于2025年创建,旨在评估语言模型对印度丰富文化多样性的理解能力。该数据集包含21,853个精心策划的问答对,覆盖印度28个邦和8个中央直辖区,涉及16个关键文化属性,如仪式与典礼、历史、旅游、美食、舞蹈与音乐、服饰、语言、艺术、节日、宗教、医学、交通、体育、夜生活以及名人。作为目前最大的印度文化知识测试数据集,SANSKRITI为评估和改进语言模型的文化理解能力设定了新标准,对推动文化包容性人工智能研究具有重要意义。
当前挑战
SANSKRITI数据集面临的挑战主要体现在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,现有语言模型在处理文化细微差别和地区特定语境时表现不佳,尤其是在印度东北部各邦等代表性不足的地区。在构建过程中,挑战包括确保文化属性的全面覆盖、避免偏见和刻板印象、处理多语言和地区特定知识的复杂性,以及维护数据的高质量和准确性。此外,如何平衡16种文化属性的代表性,以及如何处理某些文化元素在不同地区或国家间的模糊性,也是构建过程中需要解决的关键问题。
常用场景
经典使用场景
SANSKRITI数据集作为评估语言模型对印度文化理解能力的基准,其经典使用场景主要集中在对大型语言模型(LLMs)、印度本土语言模型(ILMs)和小型语言模型(SLMs)的文化知识测试。通过涵盖印度28个邦和8个中央直辖区的21,853个精心设计的问题对,该数据集能够全面评估模型在文化多样性方面的表现,特别是在处理与印度文化相关的复杂查询时的准确性和适应性。
解决学术问题
SANSKRITI数据集解决了语言模型在文化多样性理解上的关键学术问题,尤其是在非西方文化背景下的表现。通过提供覆盖印度16个关键文化属性的问题,该数据集帮助研究者识别模型在区域特定文化背景下的知识盲点,从而推动更具包容性和文化敏感性的语言模型开发。此外,该数据集还揭示了模型在文化属性(如宗教、医药和服饰)上的表现差异,为未来的研究方向提供了重要参考。
衍生相关工作
SANSKRITI数据集衍生了一系列相关研究,特别是在文化敏感性和多语言模型领域。例如,基于该数据集的评估结果,研究者开发了更具文化适应性的语言模型,如Navrasa-2.0和OpenHathi-Instruct。此外,该数据集还启发了其他文化多样性基准的创建,如DOSA和CVQA,进一步推动了全球范围内文化多样性研究的进展。
以上内容由遇见数据集搜集并总结生成



