佛经问答大模型 LoRA 微调数据集
收藏github2026-02-21 更新2026-02-25 收录
下载链接:
https://github.com/guyiicn/buddhist-llm-finetune
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含4,386条佛经问答数据,覆盖18部CBETA经典原文,共计71万字。数据集分为基础数据和专项数据,包括幻觉控制、边界拒答、身份强化和唯识学专项等类别,总训练数据达12,285条。
This dataset contains 4,386 Buddhist scripture question-answering pairs, covering 18 canonical texts from CBETA, with a total of 710,000 Chinese characters. The dataset is split into basic data and specialized subsets, including categories such as hallucination control, out-of-bound refusal, identity enhancement, and Yogacara-specific tasks, with a total of 12,285 training samples.
创建时间:
2026-02-04
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: Buddhist Sutra Knowledge LLM Fine-tuning
- 核心内容: 基于佛经知识的问答数据集,用于大语言模型微调。
- 数据来源: 从CBETA电子佛典中提取的18部佛经与论典原文。
- 数据生成方法: 使用RAG(检索增强生成)技术与Qwen API生成高质量问答对。
数据集规模与构成
总体规模
- 总训练数据量: 12,285条。
- 验证集数据量: 568条。
- 原始问答对数量: 4,374条。
- 覆盖经典总数: 18部(13部佛经 + 5部论典)。
- 经文原文总字数: 713,168字。
版本构成
- v2基础数据: 10,785条。
- v3专项增强数据: 1,500条。
v3专项数据分布
| 类别 | 数量 | 说明 |
|---|---|---|
| hallucination_defense | 300 | 幻觉控制,训练模型回答“不确定”。 |
| boundary | 500 | 边界拒答,针对12类非佛学问题。 |
| identity | 500 | 身份强化,包含“善知识”与“开经偈”内容。 |
| weishi | 200 | 唯识学专项,涵盖八识、三性、转识成智等主题。 |
数据内容详情
覆盖经典列表
佛经十三经(13部)
- 金刚般若波罗蜜经 (T0235)
- 般若波罗蜜多心经 (T0251)
- 妙法莲华经 (T0262)
- 佛说无量寿经 (T0360)
- 观无量寿佛经 (T0365)
- 佛说阿弥陀经 (T0366)
- 维摩诘所说经 (T0475)
- 楞伽阿跋多罗宝经 (T0670)
- 解深密经 (T0676)
- 大方广圆觉修多罗了义经 (T0842)
- 大佛顶首楞严经 (T0945)
- 六祖大师法宝坛经 (T2008)
- 杂阿含经 (T0099)
五部重要论典
- 大乘起信论 (T1666)
- 中论 (T1564)
- 瑜伽师地论 (T1579)
- 成唯识论 (T1585)
- 大智度论 (T1509)
各经典问答数据分布
| 经典 | QA 数量 | 经典 | QA 数量 |
|---|---|---|---|
| 成唯识论 | 654 | 大智度论 | 330 |
| 妙法莲华经 | 471 | 瑜伽师地论 | 318 |
| 楞严经 | 465 | 楞伽经 | 285 |
| 杂阿含经 | 393 | 解深密经 | 279 |
| 中论 | 369 | 维摩诘经 | 213 |
| 无量寿经 | 138 | 坛经 | 123 |
| 圆觉经 | 96 | 起信论 | 87 |
| 观经 | 78 | 金刚经 | 45 |
| 阿弥陀经 | 18 | 心经 | 12 |
数据统计特征
- 答案平均长度: 387字。
- 清洗分块后文本块数量: 1,569个。
- 数据生成策略: 每个文本块生成3个多角度问答对。
数据集格式与结构
文件结构
- 原始经文: 存放于
raw/目录,包含18部经典的CBETA文本文件。 - 清洗分块数据: 存放于
cleaned/chunks.json。 - 生成的问答对: 存放于
qa_pairs/buddhist_qa.json。 - Alpaca格式数据: 存放于
output/目录,包含训练集与验证集。 - 训练数据:
- v2版本数据位于
v2_training/目录。 - v3版本数据位于
v3_training/目录,包含合并后的完整训练集 (buddhist_v3_train.json) 与验证集 (buddhist_v3_val.json)。
- v2版本数据位于
数据处理流程
- 提取经文: 从本地CBETA文本库读取经典,去除注释和校勘记。
- 清洗分块: 标准化文本,按约500字切分,优先段落边界。
- 生成问答: 并发调用Qwen API,为每个文本块生成问答对。
- 合并数据集: 合并种子数据与生成数据,进行去重和训练/验证集分割。
数据集用途
- 主要用途: 用于对Qwen2.5等大语言模型进行LoRA微调,训练专业佛学知识问答模型“善知识”。
- 模型特点: 训练后的模型具备专业、如法的佛学问答能力,并包含幻觉控制、边界拒答等专项能力。
许可证与来源
- 许可证: 本项目仅供学习研究使用。
- 佛经文本来源: CBETA中华电子佛典协会 (https://cbetaonline.dila.edu.tw/),遵循其开放授权协议。
搜集汇总
数据集介绍
构建方式
在佛学典籍数字化研究领域,构建高质量的问答数据集是训练专业大语言模型的关键基础。该数据集以CBETA电子佛典协会提供的十八部核心经论原文为基石,涵盖佛经十三经及五部重要论典,总计七十一万余字。其构建流程严谨,首先对原始经文进行清洗与标准化处理,并按语义段落切分为一千五百余个文本块。随后,采用检索增强生成技术,结合Qwen-plus大语言模型API,从每个文本块中生成多角度、高质量的问答对,最终通过合并与专项增强,形成了包含一万两千余条训练样本的完整数据集。
特点
本数据集在佛学知识问答领域展现出鲜明的专业特性。其核心在于覆盖了义理、修行与实践等多维度的佛学知识,并特别设计了四项专项数据增强模块,以提升模型的实用性与可靠性。幻觉控制模块训练模型对不确定的问题保持谦逊,边界拒答模块使其能够识别并妥善回应十二类非佛学问题,身份强化模块则塑造了符合佛学传统的对话身份,而唯识学专项模块则深入探讨了该宗派的精微教义。这些特点共同确保了基于此数据集微调的模型能够提供专业、如法且有明确边界的高质量回答。
使用方法
该数据集专为基于LoRA等参数高效微调技术的大语言模型训练而设计。使用者可按照项目提供的结构化脚本,快速配置训练环境。数据集已预先处理为标准的Alpaca格式,包含训练集与验证集,可直接与LLaMA-Factory等主流微调框架集成。通过加载预训练的Qwen2.5等基座模型,并应用本数据集进行微调,研究者能够在有限的计算资源下,高效训练出专注于佛学知识问答的领域大模型。训练完成后,模型可通过标准的推理脚本加载,用于构建专业的佛学对话系统或进行深入的教义分析。
背景与挑战
背景概述
随着人工智能在自然语言处理领域的深入发展,将大语言模型应用于特定垂直领域知识问答已成为重要研究方向。在此背景下,佛经问答大模型LoRA微调数据集应运而生,旨在构建一个专业、如法的佛学知识智能问答系统。该数据集由开源社区开发者基于通义千问大模型架构,于近期创建,其核心研究问题聚焦于如何利用现代机器学习技术,对深奥且体系庞大的佛学经典进行结构化理解与生成,从而为宗教研究、文化传播与个人修学提供精准、可靠的数字化辅助工具。通过从CBETA电子佛典中提取十八部核心经论原文,并采用检索增强生成技术构建高质量问答对,该项目为探索大模型在人文社科领域的专业化应用提供了有价值的实践范例。
当前挑战
构建佛学领域专用大模型面临多重挑战。在领域问题层面,首要挑战在于确保模型输出的专业性与如法性,佛学义理深邃复杂,涉及大量专有名词与哲学概念,模型需精确理解并生成符合经典原义的解答,同时避免产生“幻觉”或曲解。其次,模型需具备清晰的边界意识,能够妥善处理非佛学问题或超出其知识范围的问题,维持对话的专业边界。在数据集构建过程中,挑战同样显著:如何从浩如烟海的原始佛典中筛选、清洗并分块处理文本,以适配大模型的输入限制;如何设计有效的提示工程,引导通用大语言模型生成高质量、多维度且符合教义的问答对;以及如何通过专项数据增强,针对性地提升模型在幻觉控制、边界拒答和特定宗派知识上的表现,均是构建过程中需要攻克的技术难点。
常用场景
经典使用场景
在佛教学术研究与数字化传承领域,该数据集为大型语言模型提供了精准的微调基础。其经典应用场景在于,研究者利用数据集中的万余条高质量佛经问答对,对Qwen2.5等通用大模型进行LoRA微调,从而构建出如「善知识」般的专业佛学知识问答模型。这一过程不仅实现了从海量经文原文到结构化知识的转化,更使得模型能够深入理解义理、修行等核心概念,为佛学知识的现代化阐释与传播提供了技术路径。
衍生相关工作
该数据集的构建方法论催生了一系列相关探索。其采用的“CBETA原文-RAG检索-Qwen生成”高质量数据构建流程,为其他古典文献或专业领域的微调数据集创建提供了可复用的范式。围绕其发展的专项数据增强技术,如幻觉控制、边界拒答等,已成为领域自适应微调中的重要参考。此外,以该项目为基础的「善知识」模型,也激励了更多针对特定文化或专业知识体系的大模型垂直化应用开发。
数据集最近研究
最新研究方向
在佛学与人工智能交叉领域,该数据集聚焦于利用大语言模型进行专业佛学知识的精准问答研究。前沿探索主要围绕增强模型的专业性、可靠性与安全性展开,通过引入RAG技术结合高质量佛典原文生成问答对,并特别设计了幻觉控制、边界拒答、身份强化及唯识学专项等数据增强策略。这些研究方向旨在应对大模型在专业垂直领域应用中常见的知识幻觉、答非所问等挑战,推动构建既深谙佛学义理又能恪守回答边界的可信AI助手,为宗教典籍的数字化解读与智能传承提供了新的技术范式。
以上内容由遇见数据集搜集并总结生成



