buddhist-scholar-test-set

Hugging Face2025-07-24 更新2025-07-25 收录

下载链接：

https://huggingface.co/datasets/vanloc1808/buddhist-scholar-test-set

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含1008个越南语问答对的数据集，专注于佛教教义和文学，用于评估聊天机器人在佛教概念方面的知识和理解。

创建时间：

2025-07-23

原始信息汇总

Vietnamese Buddhist Scholar Test Set 数据集概述

数据集基本信息

许可证: MIT
任务类别: 问答、文本生成
语言: 越南语
标签: 佛教、越南语、问答、宗教、聊天机器人评估
规模分类: 1K<n<10K

数据集描述

该数据集包含1008个越南语问答对，专注于佛教教义和文献。旨在评估聊天机器人对佛教概念的理解，特别是针对越南语用户。

数据集详情

数据集摘要

语言: 越南语
任务: 问答、聊天机器人评估
领域: 佛教、宗教研究
规模: 1008个问答对
格式: 包含"question"和"answer"字段的JSON

数据集结构

每个条目包含：

question: 关于佛教教义的越南语问题
answer: 从佛教文本中提取的对应答案

统计数据

总问答对数: 1008
平均问题长度: 54.23字符
平均答案长度: 75.18字符
问题长度范围: 15 - 121字符
答案长度范围: 2 - 417字符

数据来源

问题和答案来源于越南佛教文本和文献，包括：

翻译成越南语的经典佛教经文
佛教学术著作
宗教教义和评论

预期用途

主要用例

聊天机器人评估: 测试越南语聊天机器人对佛教概念的理解
问答模型: 训练或评估宗教/文化内容的问答模型
教育工具: 开发佛教研究的学习应用
文化AI: 提高AI系统对越南佛教文化的理解

注意事项

数据集专门关注佛教教义，可能不适合一般知识评估
答案基于传统佛教文本和解释
使用时应了解宗教和文化背景

数据集创建

创建时间: 2025-07-23
创建者: vanloc1808
处理工具: Azure AI Inference, Docling, 自定义脚本

加载数据集

python from datasets import load_dataset

dataset = load_dataset("vanloc1808/buddhist-scholar-test-set")

for item in dataset[train]: print(f"Q: {item[question]}") print(f"A: {item[answer]}") print("---")

评估指标

使用该数据集进行评估时，应考虑：

语义相似度: 答案与参考答案的语义匹配程度
文化准确性: 在佛教和越南文化背景下的正确性
语言质量: 越南语回答的流畅性和自然度
事实正确性: 佛教教义和概念的准确性

局限性

仅限于越南语和佛教领域
可能包含源材料中的偏见
答案反映传统解释，可能不涵盖现代观点
佛教不同主题的质量可能有所不同

引用

bibtex @dataset{buddhist_scholar_vietnamese_2024, title={Vietnamese Buddhist Scholar Test Set}, author={vanloc1808}, year={2024}, url={https://huggingface.co/datasets/vanloc1808/buddhist-scholar-test-set} }

许可证

该数据集在MIT许可证下发布。

联系方式

有关此数据集的问题或问题，请通过Hugging Face联系创建者。

搜集汇总

数据集介绍

构建方式

在佛教文献数字化研究背景下，该数据集通过系统处理越南语佛教经典文献构建而成。采用文档处理工具提取关键段落，结合AI模型生成问答对，并经过人工审核确保质量，最终形成结构化数据。整个过程涵盖文本处理、智能生成与人工校验环节，保证了数据的准确性与专业性。

特点

该数据集专注于越南语佛教教义问答，包含1008对高质量问答数据。其问题平均长度54.23字符，答案平均长度75.18字符，覆盖佛教经典教义、文献解读等丰富内容。数据源自权威佛教经典文献翻译本和学术著作，具有鲜明的文化专业性和语言特异性，为宗教领域自然语言处理提供重要资源。

使用方法

该数据集主要用于评估越南语聊天机器人对佛教知识的理解能力，可通过Hugging Face数据集库直接加载使用。研究人员可借助其进行问答模型训练与评估，亦可用于开发佛教教育工具和文化传承应用。使用时需注意结合语义相似度、文化准确性和教义正确性等多维度指标进行综合评估。

背景与挑战

背景概述

在宗教计算语言学领域，越南佛教学者测试集由vanloc1808研究团队于2024年创建，专门针对越南语佛教教义问答任务。该数据集聚焦佛教经典文献的数字化处理，旨在评估对话系统对佛教概念的理解能力，填补了越南宗教文化语料在人工智能领域的空白。通过整合古典佛经译本与学术论著，该资源为宗教知识表示与跨文化自然语言处理研究提供了重要支撑，推动了东南亚宗教文本计算分析的发展。

当前挑战

数据集构建面临佛教术语体系的多义性挑战，需平衡传统阐释与现代语义的冲突；在技术层面，越南语复杂语言特征与佛教文献古语体增加了文本处理的难度。领域问题方面，该数据集需解决宗教知识推理的语境敏感性难题，包括教义阐释的文化适配性与答案生成的 doctrinal accuracy（教义准确性）验证，这对模型的跨文化理解与语义对齐提出了更高要求。

常用场景

经典使用场景

在宗教计算语言学领域，该数据集为越南语佛教智能问答系统提供了专业评估基准。研究者通过构建包含1008个专业问答对的测试集，系统检验对话模型对佛教教义、经典文献和文化概念的理解深度，特别针对越南语语境下的宗教语义解析能力进行精准测评。

衍生相关工作

该数据集催生了多项重要研究，包括基于佛教本体的语义检索模型、越英双语宗教术语对齐系统，以及融合文化语境的知识图谱构建。后续研究进一步拓展到东南亚多宗教文本处理领域，衍生出跨宗教对话生成与宗教文献多模态理解等创新方向。

数据集最近研究