conon-biblical-am-en
收藏Canon Biblical Amharic-English Dataset 数据集详情
数据集概述
该数据集提供了一个阿姆哈拉语-英语双语平行语料库,内容为《圣经》全文,按节级别进行对齐。数据集包含 31,920 行数据,覆盖 67 卷书。阿姆哈拉语文本与英语 新美国标准圣经 (NASB) 版本对齐。
语言与任务
- 语言: 阿姆哈拉语 (am)、英语 (en)
- 任务: 文本分类、翻译、文本生成
- 许可证: MIT
数据来源与哲学
- 来源版本: 阿姆哈拉语圣经 和 新美国标准圣经 (NASB)。
- NASB 选择理由: 因其逐字准确的翻译哲学而被选中,强调对原始希伯来语、阿拉姆语和希腊语文本的直译。
- 节不匹配: 由于版本差异,阿姆哈拉语和英语的节可能偶尔不匹配,这是跨版本圣经对齐的已知特征。
圣经正典覆盖范围
该数据集主要关注埃塞俄比亚正统台瓦西多教会正典。在81卷书正典中,本数据集覆盖了67卷。以下为正典检查摘要:
- 旧约 (ብሉይ፡ኪዳን): 包含创世纪至玛拉基书,共40卷,全部收录 (✅)。
- 次经 (የቀኖና፡መጻሕፍት): 包含以斯拉续篇上、以斯拉续篇下、多比传、犹滴传、以斯帖记 (正典)、玛喀比传上卷、玛喀比传下卷,共7卷,全部缺失 (❌)。
- 新约 (ሐዲስ፡ኪዳን): 包含马太福音至启示录,共27卷,全部收录 (✅)。
数据结构
数据集以 Parquet 格式提供,包含以下列:
| 列名 | 描述 |
|---|---|
መጽሐፍ |
阿姆哈拉语书卷名称 |
ምዕራፍ |
章节号 |
ቁጥር |
节号 |
ጥቅስ |
阿姆哈拉语圣经文本 |
verse |
英语圣经文本 (NASB) |
节不匹配处理
当英语NASB版本比阿姆哈拉语版本包含更多节时,ጥቅስ (阿姆哈拉语) 列将为 null 值,而 verse (英语) 列保持填充。这确保了数据集的完整性。
技术审计结果
- 章节序列: 大多数书卷遵循完美的 1 到 N 序列。
- 特殊情况:
- ተግሣጽ (Tegsats): 遵循从第25章到第31章的特定序列。
- መዝሙረ፡ዳዊት (Psalms): 英语包含150章,阿姆哈拉语包含149章,已知差距已通过不匹配逻辑处理。
- 数据完整性: 包含的书卷中未发现主序列缺失章节。
未来路线图
后续数据集将专注于英语和阿姆哈拉语之间的跨语言理解,计划准备训练和SFT数据集,通过添加多样、高质量的数据来增强AI的准确性和对话能力。
使用方式
python from datasets import load_dataset
dataset = load_dataset("Nexuss0781/conon-biblical-am-en") data = dataset["train"]
引用
bibtex @misc{nexuss2024bible, author = {Nexuss0781}, title = {Canon Biblical Amharic-English Dataset}, year = {2024}, publisher = {Hugging Face}, journal = {Hugging Face Hub}, howpublished = {url{https://huggingface.co/datasets/Nexuss0781/conon-biblical-am-en}} }




