ImruQays/Rasaif-Classical-Arabic-English-Parallel-texts
收藏Hugging Face2024-03-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ImruQays/Rasaif-Classical-Arabic-English-Parallel-texts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含24本具有历史和文化意义的阿拉伯语书籍的英文翻译,这些书籍反映了阿拉伯语世界的古典时期。数据集旨在通过其复杂的语法结构和丰富的词汇来改进机器翻译系统,开发能够理解和复制古典阿拉伯语复杂性的大型语言模型,并作为保存古典阿拉伯语文学形式的基准。此外,数据集还提出了一个研究应用,即通过迭代翻译精炼来提高翻译质量,使现代阿拉伯语文本更接近古典风格。
提供机构:
ImruQays
原始信息汇总
数据集概述
任务类别
- 翻译
语言
- 阿拉伯语 (ar)
- 英语 (en)
数据集规模
- 10K<n<100K
许可
- cc-by-4.0
简介
该数据集包含精选的阿拉伯语-英语平行文本,涵盖24本具有历史和文化意义的书籍的翻译。这些文本展示了阿拉伯语在其古典时期的智力和文学遗产。
内容详情
数据集包含以下文本的英语翻译,来源自Rasaif网站:
- A Muslim Manual of War
- Al-Hanin Ilal-Awtan
- Avarice and the Avaricious
- Contemplation
- Diseases of the Hearts and Their Cures
- Hayy ibn Yaqzan
- Ibn Khallikans Biographical Dictionary
- Kitab al-Itibar
- Knowledge Mandates Action
- Morals and Behaviour
- Nahj al-Balagha
- The Book of Strangers
- The Canon Of Medicine of Avicenna
- The Epistle on Legal Theory
- The Heavenly Dispute
- The Islamic Conquest of Syria
- The Journey of the Strangers
- The Key to Medicine and a Guide for Students
- The Muqaddimah: An Introduction to History
- The Optics of Ibn Al-Haytham
- The Rare and Excellent History of Saladin
- The Ring of the Dove
- The Strangers
- The Travels Of Ibn Battuta, 1325 – 1354
目的和应用
该数据集的主要目标包括:
- 改进机器翻译 (MT):古典阿拉伯语复杂的语法结构和丰富的词汇为MT系统提供了理想的挑战,通过在高质量内容上进行训练,可以提高翻译的准确性和流畅性。
- 开发语言模型:通过包含这些语言精湛的文本,该数据集成为开发大型语言模型 (LLMs) 的基础,这些模型能够理解和复制古典阿拉伯语的复杂性。
- 保护语言遗产:该数据集有助于保护古典阿拉伯语的卓越文学形式,为当代写作提供质量基准。
建议的研究应用:迭代翻译改进
该数据集的一个新颖应用是利用现有翻译模型将英语文本反向翻译成阿拉伯语,可能会产生一种较不精细的阿拉伯语形式。这个过程称为反向翻译,可以生成大量不完美的阿拉伯语文本。随后,可以训练一个新模型,通过与数据集中原始古典阿拉伯语文本进行比较,来改进这种较弱的阿拉伯语形式。最终模型可以用于通过使其听起来更“古典”来增强当前的阿拉伯语文本。



