ATHAR

Name: ATHAR
Creator: 独立研究者
Published: 2024-07-29 17:45:34
License: 暂无描述

arXiv2024-07-29 更新2024-07-31 收录

下载链接：

https://huggingface.co/datasets/mohamed-khalil/ATHAR

下载链接

链接失效反馈

官方服务：

资源简介：

ATHAR数据集由独立研究者Mohammed Khalil和Mohammed Sabry创建，旨在解决古典阿拉伯语到英语翻译数据集的稀缺和质量问题。该数据集包含66,000条高质量翻译样本，覆盖科学、文化、哲学等多个领域，来源于多个历史时期的经典文本。数据集的创建过程包括数据收集、清洗和预处理，确保了数据的质量和可靠性。ATHAR数据集的应用领域主要是在开发高质量的阿拉伯语翻译模型，特别是在古典阿拉伯语的自然语言处理方面，有助于丰富跨社区的知识传播。

The ATHAR dataset was developed by independent researchers Mohammed Khalil and Mohammed Sabry to address the scarcity and quality shortcomings of existing classical Arabic-to-English translation datasets. It contains 66,000 high-quality translation samples spanning diverse domains such as science, culture, and philosophy, sourced from classical texts across multiple historical periods. The dataset's creation workflow encompasses data collection, cleaning and preprocessing, which ensures its overall quality and reliability. The primary applications of the ATHAR dataset focus on developing high-quality Arabic translation models, especially for natural language processing tasks related to classical Arabic, and it contributes to enriching cross-community knowledge dissemination.

提供机构：

独立研究者

创建时间：

2024-07-29

原始信息汇总

数据集概述

数据集信息

特征

名称: arabic
- 数据类型: string
名称: english
- 数据类型: string

分割

名称: train
- 字节数: 27878710
- 样本数: 65043
名称: test
- 字节数: 430500
- 样本数: 1000

大小

下载大小: 14722818
数据集大小: 28309210

配置

配置名称: default
- 数据文件:
  - 分割: train
    - 路径: data/train-*
  - 分割: test
    - 路径: data/test-*

任务类别

translation

语言

名称

ATHAR

大小类别

10K<n<100K

数据集结构

字段

字段: Arabic(str)
- 描述: 古典阿拉伯原文
字段: English(str)
- 描述: 古典阿拉伯文本的英语翻译

数据集加载

代码示例

python from datasets import load_dataset

athar = load_dataset("mohamed-khalil/ATHAR")

数据集样本

示例

Arabic: فَلم يزل الْفلس يعبد حَتَّى ظهرت دَعْوَة النَّبِي عَلَيْهِ السَّلَام فَبعث إِلَيْهِ على ابْن أَبِي طَالِبٍ فَهَدَمَهُ وَأَخَذَ سَيْفَيْنِ كَانَ الْحَارِثُ بن أبي شمرٍ الغساني, ملك غَسَّان قَلَّدَهُ إِيَّاهُمَا, يُقَالُ لَهُمَا مِخْذَمٌ وَرَسُوبٌ(وَهُمَا السَّيْفَانِ اللَّذَانِ ذَكَرَهُمَا عَلْقَمَةُ بْنُ عَبْدَةَ فِي شِعْرِهِ). فَقَدِمَ بِهِمَا عَلِيُّ بْنُ أَبِي طَالِبٍ عَلَى النَّبِيِّ صَلَّى اللَّهُ عَلَيْهِ وَسَلَّمَ فَتَقَلَّدَ أَحَدَهُمَا ثُمَّ دَفَعَهُ إِلَى عَلِيِّ بْنِ أَبِي طَالِبٍ, فَهُوَ سَيْفُهُ الَّذِي كَانَ يَتَقَلَّدُهُ
English: Al-Fals continued to be worshipped until the advent of the Prophet, at which time ‘Ali ibn-abi-Talib was dispatched to destroy it. ‘Ali destroyed the idol and carried away therefrom two swords called Mikhdham and Rasub (the same two swords which ‘Alqamah ibn-’Abadah had mentioned in his poetry), which al-Harith ibn-abi-Shamir, king of Ghassan, had presented al-Fals. ‘Ali brought them to the Prophet who wore one of them and gave it back to him. It was the sword which ‘Ali was always wont to wear

搜集汇总

数据集介绍

构建方式

ATHAR数据集的构建过程始于广泛收集古典阿拉伯文本，这些文本跨越了不同的历史时期和主题领域，如科学、文化和哲学。这些文本被翻译成英语，并经过专家审查以确保翻译的准确性和质量。数据收集后，进行了数据清洗和预处理，包括去除噪声、纠正错误和删除重复项，以确保数据集的质量和可靠性。为了确保阿拉伯语和英语文本的正确对齐，作者还手动验证了收集的数据集。ATHAR数据集共包含66,000个高质量的翻译样本，涵盖了广泛的学科领域，旨在填补现有数据集在代表性和质量方面的局限性。

特点

ATHAR数据集的特点在于其高质量、多样性和广泛性。数据集包含来自不同历史时期和主题领域的文本，涵盖了科学、文化和哲学等广泛领域。此外，ATHAR数据集的词汇丰富，文本的多样性高，具有高水平的词频多样性（MTLD）得分。数据集还包含了不同长度的句子，从短句到长句都有，这有助于模型学习不同句子结构的翻译。ATHAR数据集的构建过程注重数据的质量和准确性，以确保翻译系统的性能和可靠性。

使用方法

ATHAR数据集可用于各种机器翻译任务，包括零样本、少样本和微调场景。在零样本场景下，模型可以使用ATHAR数据集进行评估，以了解其翻译古典阿拉伯语的能力。在少样本场景下，模型可以使用ATHAR数据集中的少量样本进行训练，以提高其翻译性能。在微调场景下，模型可以使用ATHAR数据集中的大量样本进行训练，以进一步提高其翻译性能。ATHAR数据集的构建过程注重数据的质量和准确性，这使得它成为开发高质量翻译系统的重要资源。

背景与挑战

背景概述

古典阿拉伯语作为阿拉伯语言学理论的基石，对于受过教育的阿拉伯语读者来说，是广为人知的。它与更简化的现代标准阿拉伯语（MSA）有显著差异，后者在词汇、句法、形态学、短语学和语义学方面都更为简化。古典阿拉伯语对准确翻译成英语构成了独特的挑战。与主要在现代文学作品中占主导地位的MSA不同，古典阿拉伯语在今天的使用较少，但它仍然至关重要，存在于许多历史文件、书籍和文学文本中，这些文本富含阿拉伯和穆斯林黄金时代的知识，等待着翻译和更广泛的传播。当前的翻译系统，包括谷歌翻译和大型语言模型如ChatGPT和Llama，在翻译古典阿拉伯语方面都面临着困难，这些系统在创建机器翻译数据集时往往忽略了古典阿拉伯语，而倾向于MSA和城市方言。这项工作介绍了ATHAR数据集，这是一个从古典阿拉伯语到英语的翻译资源。'ATHAR'意为'遗产'或'古代作品'，它代表了文学和文化遗产，并突出了数据集在照亮古典阿拉伯文本中的作用，强调了它们在保护和传播这一遗产中的重要性。ATHAR数据集旨在解决先前数据集的代表性和质量问题。本文的组织结构如下：第2节探讨了先前研究人员在翻译古典阿拉伯语时面临的挑战，并详细说明了ATHAR数据集是如何解决这些挑战的。第3节详细介绍了创建ATHAR数据集的方法，包括数据收集、清理和预处理的步骤，以确保数据的质量和可靠性。在第4节，我们进行了实验，以评估最先进的LLMs在各种设置下（如零样本、少样本和微调场景）在ATHAR数据集上的性能。论文在第5节结束，强调了ATHAR数据集在开发文化上和语言上真实的阿拉伯语语言模型和推进阿拉伯语自然语言处理方面的重要性。

当前挑战

ATHAR数据集的研究背景主要集中在古典阿拉伯语翻译领域，该领域面临着两大主要挑战。首先，古典阿拉伯语与现代标准阿拉伯语在词汇、句法和风格特征上有显著差异，这导致当前的翻译系统在处理古典阿拉伯语文本时表现不佳。其次，现有的翻译数据集在主题和内容上往往有限，无法充分代表古典阿拉伯文学的多样性。为了应对这些挑战，ATHAR数据集的创建者从各种历史时期和主题（如科学、医学、哲学和文化）的古典阿拉伯文本中提取了66,000个高质量的翻译样本。这些样本旨在为翻译模型提供更广泛和多样化的训练数据，以改进它们的翻译能力。此外，ATHAR数据集还通过手动验证翻译对齐，确保了翻译的准确性和上下文的完整性，从而提高了数据集的质量。然而，即使有了ATHAR数据集，开发能够准确翻译古典阿拉伯语的高质量翻译系统仍然是一项挑战，需要进一步研究和改进翻译模型。

常用场景

经典使用场景

ATHAR数据集是一个高质量的古典阿拉伯语到英语翻译数据集，涵盖了广泛的科学、文化和哲学主题。该数据集旨在解决古典阿拉伯语翻译中存在的挑战，如词汇、句法和风格上的独特性，以及翻译数据集的稀缺性。ATHAR数据集已被广泛应用于机器翻译模型的研究和开发中，尤其是在处理古典阿拉伯语到英语的翻译任务时，它为模型提供了高质量的训练数据，从而提高了翻译的准确性和流畅性。

衍生相关工作

ATHAR数据集的发布衍生了一系列相关的研究工作。这些研究工作主要集中在古典阿拉伯语翻译、机器翻译模型和自然语言处理领域。例如，一些研究利用ATHAR数据集评估了当前最先进的语言模型的性能，并探讨了ATHAR数据集在模型微调和预训练过程中的应用。此外，一些研究还利用ATHAR数据集进行了古典阿拉伯语翻译的实证研究，探讨了翻译模型的性能和翻译质量的影响因素。这些研究工作不仅推动了古典阿拉伯语翻译研究的发展，也为机器翻译领域的研究提供了重要的数据资源和研究思路。

数据集最近研究