PersianIdioms, Fa→En, En→Fa
收藏arXiv2024-12-13 更新2024-12-17 收录
下载链接:
https://github.com/Sara-Rezaeimanesh/Fa-En-Idiom-Translation
下载链接
链接失效反馈官方服务:
资源简介:
本研究引入了两个包含习语表达的平行数据集,分别用于波斯语→英语和英语→波斯语的翻译任务。PersianIdioms数据集包含2200个波斯语习语及其含义,其中700个还包含使用示例。Fa→En和En→Fa数据集各包含200条句子,句子中至少包含一个习语。数据集的创建过程包括从在线词典中提取习语、手动修改示例句子,并通过专家审核确保数据质量。这些数据集主要用于评估大型语言模型和神经机器翻译模型在习语翻译中的表现,旨在解决跨文化语言翻译中的习语翻译难题。
This study introduces two parallel datasets containing idiomatic expressions, which are respectively designed for Persian-to-English and English-to-Persian translation tasks. The PersianIdioms dataset consists of 2200 Persian idioms and their definitions, among which 700 also include usage examples. The Fa→En and En→Fa datasets each contain 200 sentences, with each sentence incorporating at least one idiom. The construction process of these datasets includes extracting idioms from online dictionaries, manually revising example sentences, and conducting expert reviews to ensure data quality. These datasets are primarily used to evaluate the performance of Large Language Models (LLMs) and neural machine translation models in idiom translation, aiming to address the challenges of idiom translation in cross-cultural language translation.
提供机构:
德黑兰大学电气与计算机工程学院,德黑兰高级研究所
创建时间:
2024-12-13
原始信息汇总
数据集概述
数据集内容
PersianIdioms
- 描述: 包含2200个波斯语习语及其含义的综合数据集,数据来源为在线词典“Abadis”,其中700个习语附有上下文示例。
Parallel Datasets
- 描述: 包含200个句子,每个句子包含习语表达及其黄金翻译,分为En->Fa和Fa->En两个数据集。
其他资源
- Evaluation Guide Provided to Human Annotators: 提供给标注人员的进一步说明和示例,文件名为“Evaluation_Guide.pdf”。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于从在线词典Abadis中提取的波斯语习语及其含义,并辅以使用示例以提供上下文清晰度。这些示例经过手动修改,确保每个句子中仅包含一个习语,并在必要时进行简化。此外,数据集还通过随机抽样和手动检查的方式,从波斯语习语数据集中选取了200个包含习语的句子,并由专业翻译人员将其翻译成英语,随后由另一位专家进行验证。
特点
该数据集的显著特点在于其包含了2,200个波斯语习语及其含义,其中700个习语还附带了上下文使用示例。这些数据不仅展示了波斯语习语的丰富性和复杂性,还为语言模型的训练和评估提供了宝贵的资源。此外,数据集的构建过程中,通过手动验证确保了数据的准确性和文化相关性,使其成为研究波斯语习语翻译的理想工具。
使用方法
该数据集主要用于评估和训练波斯语与英语之间的习语翻译模型。研究者可以使用这些数据来测试不同的大型语言模型(LLMs)和神经机器翻译(NMT)模型在习语翻译任务中的表现。通过对比不同模型的翻译准确性和流畅性,研究者可以优化模型的提示方法,并探索LLMs与NMT模型的组合效果。此外,数据集还可用于开发自动评估方法,以替代人工评估,从而提高翻译研究的效率。
背景与挑战
背景概述
PersianIdioms数据集由伊朗德黑兰大学和德黑兰高等研究院的研究团队创建,旨在解决波斯语与英语之间成语翻译的难题。该数据集包含2,200个波斯语成语及其含义,并提供了200个包含成语的平行句子对,分别用于波斯语到英语和英语到波斯语的翻译任务。该数据集的构建基于对波斯语成语资源的深入挖掘,结合了现有的英语成语数据集,旨在填补波斯语成语数据集的空白,并为自然语言处理领域的成语翻译研究提供重要资源。
当前挑战
该数据集面临的挑战主要集中在成语翻译的复杂性上。成语的语义和文化背景使得机器翻译模型难以准确捕捉其非字面意义,导致翻译结果往往过于字面化。此外,波斯语作为一种低资源语言,缺乏足够的平行语料库,进一步增加了翻译的难度。构建过程中,研究团队需要手动验证成语的含义和上下文示例,确保数据集的准确性和文化相关性。自动评估方法如BLEU和BERTScore在成语翻译中的表现也存在局限,难以全面衡量翻译的语义准确性。
常用场景
经典使用场景
PersianIdioms, Fa→En, En→Fa 数据集的经典使用场景主要集中在波斯语与英语之间的习语翻译任务中。该数据集通过提供包含习语的平行语料,帮助研究人员评估和改进神经机器翻译(NMT)模型和大型语言模型(LLMs)在习语翻译中的表现。通过对比不同模型在习语翻译中的准确性和流畅性,研究人员能够更好地理解模型在处理文化特定表达时的能力。
实际应用
PersianIdioms, Fa→En, En→Fa 数据集在实际应用中具有广泛的前景,尤其是在跨语言交流和本地化服务领域。例如,在多语言内容创作、新闻翻译、文学作品翻译以及跨文化沟通工具的开发中,习语的准确翻译至关重要。通过使用该数据集训练和评估翻译模型,可以显著提升翻译工具在处理文化特定表达时的表现,从而为用户提供更加自然和准确的翻译体验。
衍生相关工作
PersianIdioms 数据集的发布催生了一系列相关研究工作,特别是在习语翻译和跨语言模型评估领域。例如,研究人员利用该数据集探索了不同提示工程技术对习语翻译的影响,并提出了多种模型组合策略以提升翻译质量。此外,该数据集还推动了对自动评估方法的研究,特别是如何利用大型语言模型作为评估工具来衡量习语翻译的准确性。这些研究不仅丰富了习语翻译的理论基础,也为实际应用中的翻译工具开发提供了重要参考。
以上内容由遇见数据集搜集并总结生成



