five

DharmaBench

收藏
Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/Intellexus/DharmaBench
下载链接
链接失效反馈
官方服务:
资源简介:
DharmaBench是一个多任务基准测试套件,用于评估大型语言模型在梵文和古典藏文历史文献中的分类和检测任务。包含13个子任务,覆盖了隐喻和比喻检测、引语检测、诗歌/散文分类、韵律分类以及正文/评注对齐等挑战,这些任务反映了文献学者、哲学和宗教历史学家以及数字人文研究者研究佛教文本传统时面临的关键挑战。
创建时间:
2025-10-16
原始信息汇总

DharmaBench 数据集概述

数据集基本信息

  • 数据集名称: DharmaBench
  • 维护机构: Intellexus Project (Kai Golan Hashiloni 等)
  • 资助机构: 欧洲研究理事会 (Intellexus, 项目号 101118558)
  • 共享机构: Intellexus Project
  • 许可证: CC BY-NC 4.0

语言与任务

  • 支持语言: 梵语 (sa)、古典藏语 (bo)
  • 任务类别: 文本分类、标记分类
  • 任务数量: 13个任务 (6个梵语任务,7个藏语任务,其中4个任务跨语言共享)

数据集用途

直接用途

  • 评估多语言或低资源语言模型在文化和语言丰富的古代语言数据上的表现
  • 在多种分类和检测任务上对梵语和古典藏语性能进行基准测试
  • 支持文献学家和数字人文学者进行半自动注释、引用追踪或注释对齐

适用范围外用途

数据集结构

  • 每个任务位于 Sanskrit/Tibetan/ 目录下
  • 文件格式包含 train.jsontest.json
  • 每个任务具有略微不同的结构和列
  • 所有数据都经过标准化处理,适用于文本级和标记级任务

数据来源与处理

数据来源

  • 来自公共领域的佛教语料库
  • 包含数字化的经典和注释材料

数据处理

  • 数据经过清理、标准化和必要的手动对齐
  • 有问题或模糊的样本经过协作讨论,无法达成共识时被排除

原始数据生产者

  • 原始文本由公元前1千年至公元19世纪的佛教学者创作
  • 开源倡议和佛教文本档案准备了数字转录本

注释信息

注释过程

  • 由梵语和古典藏语研究领域的专家进行注释
  • 通过协作讨论解决模糊和不一致问题
  • 注释指南经过迭代优化

注释人员

  • Intellexus Project 的学者和研究助理
  • 具有佛学研究、语言学和计算语言学背景

数据隐私与安全

  • 不包含个人或敏感信息
  • 所有文本均为历史文献且属于公共领域

局限性与建议

局限性

  • 数据集代表经典和学术佛教材料,可能不适用于口语或现代语言使用
  • 保留了源文本固有的偏见(宗教、哲学或性别相关观点)
  • 某些任务可能通过形式线索而非深度理解来解决

使用建议

  • 用户应了解数据集的风险、偏见和局限性
  • 谨慎解释模型性能,避免过度泛化结果
  • 建议在受控研究环境中用于比较评估和微调

相关资源

  • 代码仓库: https://github.com/Intellexus-DSI/DharmaBench
  • 论文: DharmaBench: Evaluating Language Models on Buddhist Texts in Sanskrit and Tibetan (ARR July 2025)
  • 演示: 不可用

联系方式

  • 数据集卡片作者: Kai Golan Hashiloni (Intellexus Project)
  • 联系邮箱: golankai@gmail.com
搜集汇总
数据集介绍
main_image_url
构建方式
在佛教文献数字化研究领域,DharmaBench的构建依托公共领域的佛教经典与注疏文献,涵盖梵语与古典藏语两大语言体系。研究团队采用文献学方法对原始文本进行清洗、标准化与人工对齐处理,针对语义模糊的样本通过专家协商机制进行筛选排除,最终形成包含13项任务的标准化语料库。这一构建过程充分体现了数字人文研究中文本处理的严谨性与跨学科协作特性。
特点
该数据集显著特征在于其多任务评估框架的设计,涵盖隐喻识别、引文检测、诗文分类等六大语言学分析维度。通过设置4项跨语言共享任务,实现了对低资源古代语言理解能力的系统性测评。其语料源自公元前的佛教典籍至19世纪文献,兼具历时跨度与文化深度,为考察语言模型在宗教哲学文本中的结构化分析能力提供了独特视角。
使用方法
研究者可通过GitHub仓库获取标准化的训练集与测试集文件,每个任务均以JSON格式独立存储。使用时应依据具体任务类型选择文本分类或序列标注范式,建议在评估多语言模型时重点观察跨文化语境下的表现差异。该数据集适用于佛教学、计算语言学和数字人文领域的模型性能基准测试,但需注意其历史文本特性对模型泛化能力的影响。
背景与挑战
背景概述
在数字人文与低资源语言计算研究蓬勃发展的背景下,DharmaBench作为多任务基准套件于2025年由Intellexus项目团队(Kai Golan Hashiloni等)主导构建,并获欧洲研究委员会资助。该数据集聚焦梵语与古典藏语佛教文献,通过13项分类与检测任务系统评估大语言模型对古代文本的语言特征、文化内涵及结构关系的理解能力,为佛教文献学、宗教哲学史等学科提供了标准化评估工具,填补了东方古典语言在自然语言处理领域的空白。
当前挑战
该数据集需解决佛教文献数字化中的核心挑战:古代文本的隐喻识别、偈颂与散文分类、注释对齐等任务要求模型兼具语言学规律捕捉与文化语境解析能力。构建过程中面临双重困难:原始文献存在历时性语言演变与书写变体,需依赖领域专家进行高成本标注;而低资源特性导致数据稀疏性显著,部分任务仅能通过表层结构特征而非深层语义实现判别,需通过协作讨论机制排除歧义样本以保障质量。
常用场景
经典使用场景
在佛教文献研究领域,DharmaBench作为多任务基准套件,其经典应用聚焦于评估大语言模型对梵文与古典藏文历史文本的解析能力。该数据集通过隐喻识别、引文检测及诗体分类等任务,系统检验模型在低资源古代语言环境下的文化语义理解水平,为数字人文研究提供标准化评估框架。
解决学术问题
该数据集有效应对佛教文献数字化中的核心挑战,通过构建跨语言对齐任务解决了古代文本结构解析的学术难题。其多任务设计填补了梵藏双语NLP评估体系的空白,为语言模型在哲学宗教文本中的推理能力建立量化标准,推动计算语言学与古典文献学的交叉融合。
衍生相关工作
基于该数据集衍生的经典研究包括跨语言表征学习框架的构建,如梵藏双语嵌入模型Sanskrit-Tibetan BERT。其在低资源语言理解领域的探索催生了多任务迁移学习方法,相关成果已被扩展应用于巴利语等东方古典语言的NLP基准建设。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作