Valmiki Ramayana Dataset
收藏Valmiki Ramayana 数据集概述
数据集简介
Valmiki Ramayana 数据集是一个开源的结构化、机器可读的数据集,包含梵文经文(Shlokas)、罗马化转写、英文翻译(逐字和句子含义)以及解释和评论。
数据集内容
- 梵文经文(Sanskrit Shlokas):原始梵文经文。
- 罗马化转写(Romanized Transliterations):梵文经文的罗马化转写。
- 英文翻译(English Translations):逐字翻译和句子含义。
- 解释与评论(Explanations & Commentary):对经文的详细解释和评论。
数据集结构
Valmiki_Ramayan_Dataset/ │── data/ # 主数据集 │ ├── Valmiki_Ramayan_Shlokas.json # 结构化的经文数据集 │ │── resources/ # 学术资源,PDF文件,外部数据集 │ ├── MN_Dutt_Volume_1_2.pdf │ ├── MN_Dutt_Volume_3_5.pdf │ ├── MN_Dutt_Volume_6.pdf │ ├── MN_Dutt_Volume_7.pdf │ │── docs/ # 额外的解释或未来工作 │ ├── dataset_structure.md # 数据集列和结构的解释 │ ├── preprocessing_notes.md # 数据集处理笔记 │ │── Resources.md # 一站式学术参考 │── README.md # 本文件 │── LICENSE # MIT许可证 │── .gitignore # GitHub忽略文件
数据格式示例
每个JSON数据集条目遵循以下结构: json { "kanda": "Bala Kanda", "sarga": 1, "shloka": 1, "shloka_text": "तपस्स्वाध्यायनिरतं तपस्वी वाग्विदां वरम् । नारदं परिपप्रच्छ वाल्मीकिर्मुनिपुङ्गवम् ।।1.1.1।।", "transliteration": "tapassvādhyāyanirataṁ tapasvī vāgvidāṁ varam। nāradaṁ paripapraccha vālmīkir munipuṅgavam।।", "translation": "तपस्वी ascetic, वाल्मीकि: Valmiki, तप: स्वाध्यायनिरतम् highly delighted in the practice of religious austerities and study of vedas, वाग्विदां वरम् eloquent among the knowledgeable, मुनिपुङ्गवम् preeminent among sages, नारदम् Narada, परिपप्रच्छ enquired.", "explanation": "Ascetic Valmiki enquired of Narada, preeminent among the sages ever engaged in the practice of religious austerities or study of the Vedas and best among the eloquent.", "comments": "Saint Narada visits hermitage of Valmiki -- Valmiki queries about a single perfect individual bestowed with all good qualities enumerated by him -- Narada, knower of past, present and future, identifies such a man -- describes virtues, qualities of Sri Rama -- narrates briefly the story of his life." }
数据来源与致谢
- 主要文本与翻译:
- M.N. Dutt的英文翻译(1891-1894)
- IIT Kanpur Gita Supersite
- Gyaandweep
- 数据结构与处理:
- 从多个验证来源提取并清理文本
- 重新格式化以提高AI/NLP可用性
- 包含逐字翻译和解释
下载与使用
-
克隆仓库: bash git clone https://github.com/AshuVj/Valmiki_Ramayan_Dataset.git
-
直接下载数据集: 下载
Valmiki_Ramayan_Shlokas.json
贡献与改进
- 报告问题:打开问题
- 提交拉取请求:修复错误、添加更好的解释或帮助完善数据集
- 贡献额外的学术资源
已知问题与未来改进
- 合并的经文:由于OCR/格式化错误,一些经文被错误地合并
- 缺失的翻译与解释:一些条目缺少英文含义和解释
- 需要验证:梵文到英文翻译的全面手动验证尚未完成
许可证
本数据集采用MIT许可证发布,可用于研究、学习和非商业项目。
结论
न हि ज्ञानेन सदृशं पवित्रमिह विद्यते।
तत्स्वयं योगसंसिद्धः कालेनात्मनि विन्दति॥
(没有什么比知识更纯净。通过学习的奉献实现自我实现的人,在适当的时候会在自己身上找到智慧。)




