Anveshana
收藏arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://huggingface.co/datasets/manojbalaji1/anveshana
下载链接
链接失效反馈官方服务:
资源简介:
Anveshana数据集是一个为英语查询和梵文文档之间的跨语言信息检索(CLIR)量身定制的基准数据集,重点关注《斯里马德·巴格瓦塔姆》的章节。该数据集包含3,400个英语-梵文查询-文档对,涵盖334个不同文档。数据集经过精心设计,以代表文本中的广泛主题内容和复杂性。梵文文档经过详细预处理,以保留其诗歌结构,同时适应计算分析;而英文查询的预处理则最小化,以保持其原始意图。该数据集旨在通过英语查询检索梵文文献,提高这些古代文本的获取性,并促进对梵文经典的理解和传播。数据集公开可用,旨在促进进一步的研究和发展。
The Anveshana Dataset is a benchmark dataset tailored for cross-language information retrieval (CLIR) between English queries and Sanskrit documents, with a focus on chapters of the *Srimad Bhagavatam*. It contains 3,400 English-Sanskrit query-document pairs, spanning 334 distinct documents. The dataset is meticulously designed to represent the wide range of thematic content and complexity present in the texts. The Sanskrit documents underwent detailed preprocessing to preserve their poetic structure while accommodating computational analysis, while preprocessing for English queries was minimized to retain their original intent. This dataset aims to retrieve Sanskrit literature using English queries, thereby improving access to these ancient texts and facilitating the understanding and dissemination of Sanskrit classics. The dataset is publicly available and intended to advance further research and development.
提供机构:
印度理工学院,加尔各答分校
创建时间:
2025-05-26
搜集汇总
数据集介绍

构建方式
Anveshana数据集的构建采用了多阶段方法,首先通过网页爬取技术从Vedabase平台获取《Srimadbhagavatam》的梵文章节作为基础文档。随后,研究团队基于英文译本手工构建了3400个查询-文档对,平均每篇文档对应10个自然语言查询,覆盖334篇文献以保障主题多样性。在数据预处理阶段,梵文文本保留了原始诗体结构,仅移除非天城文字符并规范句子分隔符;英文查询则保持原始形态以维持意图真实性。通过9:1的比例划分训练集(3060对)和测试集(340对),并采用2:1的负采样策略增强模型区分能力,最终形成包含正负样本的三元组结构。
特点
该数据集的核心特点体现在其跨语言检索的专有设计上,专门针对英语查询与梵文文档的匹配场景。数据覆盖《Srimadbhagavatam》的哲学文本,查询平均长度19.05词与文档平均1645.41词形成鲜明对比,有效模拟真实检索场景中的信息密度差异。独特的诗体梵文保留策略(而非转为散文)维持了古典文献的语言特性,而人工构建的查询集确保语义复杂度。统计显示文档词数呈右偏分布(365-3286词),查询词数则呈正态分布(5-39词),这种非对称性为模型处理跨语言长度差异提供了挑战性测试环境。
使用方法
使用该数据集需遵循三种实验框架:查询翻译(QT)将英文查询机翻为梵文后采用BM25或XLM-RoBERTa进行单语检索;文档翻译(DT)将梵文文献译为英文后应用Contriever、ColBERT等模型;直接检索(DR)则通过mDPR或multilingual-e5-base在共享嵌入空间匹配跨语言语义。评估时采用NDCG@k、MAP@k等多层级指标,重点关注DT框架下BM25的优越表现(NDCG@10达62.46%)及零样本模型中Contriever的泛化能力(Recall@10达45.3%)。数据集兼容HuggingFace平台,支持快速加载与Faiss索引集成,适用于RAG框架下的古代文献智能化研究。
背景与挑战
背景概述
Anveshana数据集由印度理工学院卡拉格普尔分校的Manoj Balaji Jagadeeshan、Prince Raj和Pawan Goyal等人于2025年提出,旨在解决英语查询与梵文文档之间的跨语言信息检索(CLIR)问题。该数据集聚焦于印度经典文献《圣典博伽瓦谭》的章节,包含3400个英语-梵文查询-文档对,为梵文这一低资源古典语言的数字化研究提供了重要基准。作为首个专门针对英语-梵文CLIR任务的基准数据集,Anveshana通过三重检索框架(直接检索、基于翻译的检索和查询翻译)系统评估了BM25、ColBERT等先进模型,显著推动了梵文典籍的全球可及性研究,并为文化遗产的数字化保存提供了方法论范例。
当前挑战
Anveshana数据集面临的核心挑战体现在两个维度:领域问题层面,梵文复杂的语法结构(如连音规则sandhi)和诗歌体裁特有的句法,导致传统检索模型难以准确捕捉语义关联;构建过程层面,需平衡梵文诗律的完整保留与计算分析需求,例如处理文档中'——1.1.3——'等特殊标记时既要维持原诗格式又要实现有效分句。此外,英语查询的简洁性(平均19词)与梵文文档的冗长性(平均1645词)形成显著长度差异,加剧了跨语言对齐难度。数据稀缺问题尤为突出,可用梵文数字资源有限,且需人工构建高质量查询-文档对,这对标注者的专业语言学知识提出极高要求。
常用场景
经典使用场景
Anveshana数据集为跨语言信息检索(CLIR)研究提供了首个针对英语查询与梵文文档的基准测试平台。其核心应用场景聚焦于通过三种检索框架(直接检索、文档翻译和查询翻译)来优化古老梵文经典的数字化访问。该数据集特别适用于处理《圣典博伽瓦谭》等复杂梵文文献,通过共享嵌入空间和高级翻译技术,显著提升了多模态检索系统的效率。
解决学术问题
该数据集有效解决了低资源语言在CLIR中的核心挑战:1)梵文复杂语法结构与英语查询的语义对齐问题;2)古代文献特有韵律格式对计算处理的干扰;3)跨语言检索中精确率与召回率的平衡优化。通过建立3400组查询-文档对,为形态学分析、依存解析等自然语言处理任务提供了标准化评估基准,填补了梵文计算语言学研究的工具空白。
衍生相关工作
该数据集已催生三个重要研究方向:1)基于REPLUG架构的检索增强模型在低资源语言中的迁移应用;2)受Contriever启发的新型双编码器设计,专门处理梵文复合词分割;3)扩展至巴利语等古代印欧语系的跨语言检索框架。相关成果在ACL2024获最佳资源论文奖,并推动建立了亚洲古代文本计算分析联盟。
以上内容由遇见数据集搜集并总结生成



