Sanskrit QA Dataset

Name: Sanskrit QA Dataset
Creator: 印度理工学院坎普尔分校
Published: 2025-05-19 22:30:10
License: 暂无描述

arXiv2025-05-19 更新2025-05-21 收录

下载链接：

https://github.com/mahesh-ak/SktQA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Sanskrit QA Dataset，由印度理工学院坎普尔分校的研究团队创建，包含1501个事实问答对，覆盖印度史诗和医疗保健等不同领域。数据集旨在帮助评估和基准大型语言模型在古典语言任务上的性能，特别是在缺乏相关数据的情况下。数据集的创建过程涉及从原始梵文文本中检索相关段落，并使用BM25检索算法进行增强。该数据集对于数字人文研究和多语言自然语言处理研究具有重要意义。

This dataset, named Sanskrit QA Dataset, was developed by a research team from the Indian Institute of Technology Kanpur. It contains 1501 factual question-answer pairs spanning diverse domains including Indian epics and healthcare. The dataset is designed to facilitate the evaluation and benchmarking of large language models' performance on classical language tasks, particularly in scenarios with limited relevant data. The dataset construction process involves retrieving relevant passages from original Sanskrit texts and augmenting them using the BM25 retrieval algorithm. This dataset holds significant value for digital humanities research and multilingual natural language processing research.

提供机构：

印度理工学院坎普尔分校

创建时间：

2025-05-19

原始信息汇总

NLU in Classical Languages 数据集概述

数据集基本信息

数据集名称：NLU in Classical Languages
主要用途：自然语言理解（NLU）在古典语言中的应用

环境要求

需要.env文件配置以下内容：
- OPENAI_API_KEY
- FIREWORKS_API_KEY
- NEO4J_URI
- NEO4J_USERNAME
- NEO4J_PASSWORD
- NEO4J_DATABASE

依赖项

Python依赖：requirements.txt中列出的所有包
额外需求：Neo4j数据库

实验运行

运行所有实验并生成结果： make all
知识图谱默认加载到名为neo4j的数据库中

结果输出

结果和表格生成在results/目录下
results.json文件生成在主文件夹中

搜集汇总

数据集介绍

构建方式

Sanskrit QA Dataset的构建基于两个关键文本：印度古代史诗《罗摩衍那》和阿育吠陀经典《Bhāvaprakāśanighaṇṭu》。研究团队从印地语多选题集（分别包含1000和2600个问题）中筛选出1431个问题，并邀请梵语专家将其翻译为梵语。此外，阿育吠陀专家还新增了70个专业问题，最终形成包含1501个事实型问答对的语料库。为确保质量，团队采用双重校验机制：所有问题均需与原始梵文文本核对，答案需保持正确的语法变格形式。数据预处理阶段特别设计了基于Seq2Seq架构的梵语词形还原器（F1=0.94），以解决高度屈折形态带来的检索挑战。

使用方法

使用该数据集时，建议采用三阶段流程：预处理阶段需运行配套的梵语词形还原工具处理查询和文档；检索阶段推荐BM25算法（k=4）从原文抽取相关段落；推理阶段可比较闭卷与RAG模式的性能差异。评估指标需同时考虑原始答案（保留变格）和词元化答案的精确匹配率。对于知识图谱应用，数据集兼容Think-on-Graph范式，但需注意现有图谱覆盖率限制（《罗摩衍那》含867节点/944边）。实验设计应控制提示语言变量（英语/梵语）以分析跨语言迁移效果。

背景与挑战

背景概述

Sanskrit QA Dataset是由印度理工学院坎普尔分校等机构的研究团队于2025年创建的古语言理解基准数据集，聚焦于梵语这一古典印欧语系的低资源语言。该数据集作为《大型语言模型在古典语言中的跨语言零样本泛化研究》的核心组成部分，填补了梵语事实型问答任务的资源空白，包含1501个源自《罗摩衍那》史诗和《阿育吠陀》医典的问题-答案对。数据集创新性地采用检索增强生成技术，通过BM25算法从原始文献中检索相关段落，为研究古典语言的语义理解和跨语言迁移能力提供了重要实验平台。

当前挑战

构建梵语QA数据集面临双重挑战：领域层面需解决古典语言特有的高屈折形态导致的语义解析难题，以及低资源特性造成的预训练数据匮乏问题；技术实现过程中，团队需克服梵语复合词分割、连音规则处理等语言学障碍，并开发基于Seq2Seq架构的梵语词形还原器（F1=0.94）以支持检索系统。实验表明较小规模模型在niche实体识别任务上准确率较GPT-4o低23%，且检索增强效果对8B参数模型的性能提升不足15%，凸显模型规模对古典语言零样本泛化的关键影响。

常用场景

经典使用场景

Sanskrit QA Dataset作为古典语言处理领域的重要资源，其经典使用场景主要聚焦于评估大型语言模型（LLMs）在零样本跨语言泛化任务中的表现。该数据集通过构建基于《罗摩衍那》史诗和《阿育吠陀》医学文本的1501个事实型问答对，为研究者提供了测试模型对高度屈折语言理解能力的标准化基准。在检索增强生成（RAG）框架下，该数据集尤其擅长验证模型结合上下文信息回答复杂问题的能力，例如通过BM25检索原始梵文段落辅助生成答案，这一设计显著提升了模型在封闭领域问答任务中的表现。

解决学术问题

该数据集有效解决了古典语言计算研究中三大核心问题：一是填补了梵文领域高质量问答数据集的空白，此前该语言仅存在80个亲属关系问题的微型数据集；二是揭示了模型规模对跨语言泛化的关键影响，实验证明大型模型（如GPT-4o）在零样本设置下能达到或超越微调基线模型的性能；三是为高度屈折语言的语义理解提供了评估框架，通过对比词形变化与词干化答案的匹配率（EM分数），量化了LLMs处理复杂形态学特征的能力。这些突破为数字人文领域的古典文本计算分析奠定了方法论基础。

实际应用

在实际应用层面，该数据集推动了古典文献智能处理系统的开发。在文化遗产数字化领域，基于该数据集训练的模型可自动解答关于印度史诗的史实查询，辅助学者进行文本分析；在传统医学研究方面，系统能快速检索《阿育吠陀》典籍中的药理知识，但需严格限制在学术参考用途以避免医疗误用。此外，数据集构建过程中开发的梵文词形还原器（lemmatizer）和知识图谱接口（Neo4j），已实际应用于印度多个古籍数字化项目，显著提升了梵文信息检索系统的准确率。

数据集最近研究