five

Sanskrit QA Dataset

收藏
arXiv2025-05-19 更新2025-05-21 收录
下载链接:
https://github.com/mahesh-ak/SktQA
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Sanskrit QA Dataset,由印度理工学院坎普尔分校的研究团队创建,包含1501个事实问答对,覆盖印度史诗和医疗保健等不同领域。数据集旨在帮助评估和基准大型语言模型在古典语言任务上的性能,特别是在缺乏相关数据的情况下。数据集的创建过程涉及从原始梵文文本中检索相关段落,并使用BM25检索算法进行增强。该数据集对于数字人文研究和多语言自然语言处理研究具有重要意义。

This dataset, named Sanskrit QA Dataset, was developed by a research team from the Indian Institute of Technology Kanpur. It contains 1501 factual question-answer pairs spanning diverse domains including Indian epics and healthcare. The dataset is designed to facilitate the evaluation and benchmarking of large language models' performance on classical language tasks, particularly in scenarios with limited relevant data. The dataset construction process involves retrieving relevant passages from original Sanskrit texts and augmenting them using the BM25 retrieval algorithm. This dataset holds significant value for digital humanities research and multilingual natural language processing research.
提供机构:
印度理工学院坎普尔分校
创建时间:
2025-05-19
原始信息汇总

NLU in Classical Languages 数据集概述

数据集基本信息

  • 数据集名称:NLU in Classical Languages
  • 主要用途:自然语言理解(NLU)在古典语言中的应用

环境要求

  • 需要.env文件配置以下内容:
    • OPENAI_API_KEY
    • FIREWORKS_API_KEY
    • NEO4J_URI
    • NEO4J_USERNAME
    • NEO4J_PASSWORD
    • NEO4J_DATABASE

依赖项

  • Python依赖:requirements.txt中列出的所有包
  • 额外需求:Neo4j数据库

实验运行

  • 运行所有实验并生成结果: make all
  • 知识图谱默认加载到名为neo4j的数据库中

结果输出

  • 结果和表格生成在results/目录下
  • results.json文件生成在主文件夹中
搜集汇总
数据集介绍
main_image_url
构建方式
Sanskrit QA Dataset的构建基于两个关键文本:印度古代史诗《罗摩衍那》和阿育吠陀经典《Bhāvaprakāśanighaṇṭu》。研究团队从印地语多选题集(分别包含1000和2600个问题)中筛选出1431个问题,并邀请梵语专家将其翻译为梵语。此外,阿育吠陀专家还新增了70个专业问题,最终形成包含1501个事实型问答对的语料库。为确保质量,团队采用双重校验机制:所有问题均需与原始梵文文本核对,答案需保持正确的语法变格形式。数据预处理阶段特别设计了基于Seq2Seq架构的梵语词形还原器(F1=0.94),以解决高度屈折形态带来的检索挑战。
使用方法
使用该数据集时,建议采用三阶段流程:预处理阶段需运行配套的梵语词形还原工具处理查询和文档;检索阶段推荐BM25算法(k=4)从原文抽取相关段落;推理阶段可比较闭卷与RAG模式的性能差异。评估指标需同时考虑原始答案(保留变格)和词元化答案的精确匹配率。对于知识图谱应用,数据集兼容Think-on-Graph范式,但需注意现有图谱覆盖率限制(《罗摩衍那》含867节点/944边)。实验设计应控制提示语言变量(英语/梵语)以分析跨语言迁移效果。
背景与挑战
背景概述
Sanskrit QA Dataset是由印度理工学院坎普尔分校等机构的研究团队于2025年创建的古语言理解基准数据集,聚焦于梵语这一古典印欧语系的低资源语言。该数据集作为《大型语言模型在古典语言中的跨语言零样本泛化研究》的核心组成部分,填补了梵语事实型问答任务的资源空白,包含1501个源自《罗摩衍那》史诗和《阿育吠陀》医典的问题-答案对。数据集创新性地采用检索增强生成技术,通过BM25算法从原始文献中检索相关段落,为研究古典语言的语义理解和跨语言迁移能力提供了重要实验平台。
当前挑战
构建梵语QA数据集面临双重挑战:领域层面需解决古典语言特有的高屈折形态导致的语义解析难题,以及低资源特性造成的预训练数据匮乏问题;技术实现过程中,团队需克服梵语复合词分割、连音规则处理等语言学障碍,并开发基于Seq2Seq架构的梵语词形还原器(F1=0.94)以支持检索系统。实验表明较小规模模型在niche实体识别任务上准确率较GPT-4o低23%,且检索增强效果对8B参数模型的性能提升不足15%,凸显模型规模对古典语言零样本泛化的关键影响。
常用场景
经典使用场景
Sanskrit QA Dataset作为古典语言处理领域的重要资源,其经典使用场景主要聚焦于评估大型语言模型(LLMs)在零样本跨语言泛化任务中的表现。该数据集通过构建基于《罗摩衍那》史诗和《阿育吠陀》医学文本的1501个事实型问答对,为研究者提供了测试模型对高度屈折语言理解能力的标准化基准。在检索增强生成(RAG)框架下,该数据集尤其擅长验证模型结合上下文信息回答复杂问题的能力,例如通过BM25检索原始梵文段落辅助生成答案,这一设计显著提升了模型在封闭领域问答任务中的表现。
解决学术问题
该数据集有效解决了古典语言计算研究中三大核心问题:一是填补了梵文领域高质量问答数据集的空白,此前该语言仅存在80个亲属关系问题的微型数据集;二是揭示了模型规模对跨语言泛化的关键影响,实验证明大型模型(如GPT-4o)在零样本设置下能达到或超越微调基线模型的性能;三是为高度屈折语言的语义理解提供了评估框架,通过对比词形变化与词干化答案的匹配率(EM分数),量化了LLMs处理复杂形态学特征的能力。这些突破为数字人文领域的古典文本计算分析奠定了方法论基础。
实际应用
在实际应用层面,该数据集推动了古典文献智能处理系统的开发。在文化遗产数字化领域,基于该数据集训练的模型可自动解答关于印度史诗的史实查询,辅助学者进行文本分析;在传统医学研究方面,系统能快速检索《阿育吠陀》典籍中的药理知识,但需严格限制在学术参考用途以避免医疗误用。此外,数据集构建过程中开发的梵文词形还原器(lemmatizer)和知识图谱接口(Neo4j),已实际应用于印度多个古籍数字化项目,显著提升了梵文信息检索系统的准确率。
数据集最近研究
最新研究方向
在古典语言处理领域,Sanskrit QA Dataset的最新研究聚焦于大语言模型(LLMs)的跨语言零样本泛化能力。通过构建涵盖史诗与医学文本的1501组事实型问答对,该数据集揭示了检索增强生成(RAG)技术对梵语等高屈折语言理解的显著提升。研究特别关注模型规模对泛化性能的影响,发现GPT-4o等大型模型在命名实体识别和机器翻译任务中表现优于传统微调模型,而较小模型则面临抽象实体识别和上下文利用不足的挑战。这项工作不仅填补了古典语言QA数据集的空白,更为数字人文和低资源语言处理提供了新的评估基准,突显了LLMs在文化遗产数字化中的潜在价值。
相关研究论文
  • 1
    A Case Study of Cross-Lingual Zero-Shot Generalization for Classical Languages in LLMs印度理工学院坎普尔分校 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作