five

PTT_en_ko

收藏
Hugging Face2024-10-06 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/PrompTart/PTT_en_ko
下载链接
链接失效反馈
官方服务:
资源简介:
Parenthetical Terminology Translation (PTT) 数据集是为评估和训练模型在保持专业领域清晰度和准确性的同时翻译技术术语而设计的。该数据集包含英语和韩语的双语句子对,其中原始英语技术术语与其韩语翻译一起显示在括号中。主要数据集涵盖人工智能(AI)领域,并使用物理学和生物学的额外域外数据集进行评估。数据集结构包括训练、验证和测试拆分,以及生物学和物理学的域外评估拆分。每个句子对包含字段如 terms_set_index、terms、duplicated、english 和 korean。
创建时间:
2024-09-28
原始信息汇总

Parenthetical Terminology Translation (PTT) Dataset

概述

Parenthetical Terminology Translation (PTT) 数据集旨在评估和训练模型在翻译技术术语时保持专业领域的清晰度和准确性。该数据集包含英语-韩语双语句子对,其中原始英语技术术语以括号形式显示在其韩语翻译旁边。主要数据集涵盖人工智能(AI)领域,并使用物理学和生物学的额外域外(OOD)数据集进行评估。

数据集结构

  • 语言: 英语, 韩语
  • 领域:
    • 主要领域: 人工智能 (AI)
    • 域外评估: 生物学, 物理学
  • 翻译格式: 韩语翻译中的每个技术术语后跟其原始英语术语,括号内显示。

数据集分割

AI 领域 (主要数据集)

分割 句子对数量
训练 1,116
验证 144
测试 138

域外 (OOD) 数据集

领域 句子对数量
亚细胞过程 (q-bio.SC) 171
介观和纳米尺度物理学 (cond-mat.mes-hall) 60
高能物理学 (hep-ex) 168

数据字段

每个句子对包含以下字段:

  • terms_set_index: 与句子相关的技术术语集的标识符。
  • terms: 句子中使用的技术术语列表。
  • duplicated: 布尔标志,指示同一技术术语是否在句子中出现多次 (True 或 False)。
  • english: 包含技术术语的原始英语句子。
  • korean: 源句子的韩语翻译,括号内显示英语技术术语。

数据集加载

可以使用 Hugging Face datasets 库加载数据集: python from datasets import load_dataset

dataset = load_dataset("PrompTart/PTT_en_ko")

引用

如果在研究中使用此数据集,请按以下方式引用: tex @misc{myung2024efficienttechnicaltermtranslation, title={Efficient Technical Term Translation: A Knowledge Distillation Approach for Parenthetical Terminology Translation}, author={Jiyoon Myung and Jihyeon Park and Jungki Son and Kyungro Lee and Joohyung Han}, year={2024}, eprint={2410.00683}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.00683}, }

联系

如有问题或反馈,请联系 jiyoon0424@gmail.com

搜集汇总
数据集介绍
main_image_url
构建方式
PTT_en_ko数据集专注于技术术语的翻译,旨在评估和训练模型在专业领域中保持术语清晰度和准确性的能力。该数据集通过构建英语-韩语双语句子对,其中每个韩语翻译后的技术术语后都附有原始英语术语的括号注释。数据集主要涵盖人工智能领域,并包含用于评估的物理学和生物学领域的外域数据。
使用方法
使用PTT_en_ko数据集时,可以通过Hugging Face的`datasets`库加载数据集。用户只需调用`load_dataset`函数并指定数据集名称即可轻松访问数据。该数据集适用于训练和评估翻译模型,特别是在处理技术术语翻译时,能够有效提升模型的准确性和专业性。
背景与挑战
背景概述
PTT_en_ko数据集由Jiyoon Myung等研究人员于2024年创建,旨在评估和训练模型在翻译技术术语时的表现,特别是在保持专业领域清晰度和准确性方面。该数据集主要涵盖人工智能领域,并包含物理学和生物学领域的额外数据集用于评估。数据集结构包括英语和韩语的双语句对,其中每个技术术语的韩语翻译后都附有原始英语术语的括号注释。该数据集的创建为跨语言技术术语翻译研究提供了重要资源,推动了自然语言处理领域的发展。
当前挑战
PTT_en_ko数据集面临的挑战主要包括两个方面。首先,在解决领域问题时,技术术语的翻译需要极高的准确性和专业性,尤其是在跨学科领域的术语翻译中,如何保持术语的一致性和清晰度是一个重要挑战。其次,在数据集的构建过程中,研究人员需要从大量专业文献中提取并标注技术术语,这一过程不仅耗时,还需要对多个领域的专业知识有深入理解。此外,确保数据集在不同领域(如人工智能、物理学和生物学)之间的泛化能力也是一个关键挑战。
常用场景
经典使用场景
PTT_en_ko数据集在机器翻译领域具有重要应用,特别是在处理技术术语的翻译任务中。该数据集通过提供英语-韩语双语对照的句子对,特别关注人工智能领域的术语翻译,确保翻译的准确性和清晰度。研究人员可以利用该数据集训练和评估翻译模型,尤其是在处理专业术语时,模型能够更好地理解并保留术语的原始含义。
解决学术问题
PTT_en_ko数据集解决了机器翻译领域中的一个关键问题,即如何在翻译过程中准确处理技术术语。传统翻译模型在处理专业术语时往往表现不佳,容易导致信息丢失或误译。该数据集通过提供术语的原文和翻译对照,帮助模型更好地学习术语的上下文和语义,从而提升翻译质量。这一贡献对于跨语言技术文档的翻译具有重要意义,尤其是在人工智能、物理和生物学等领域。
实际应用
在实际应用中,PTT_en_ko数据集可以广泛应用于技术文档的翻译、跨语言知识共享以及多语言教育资源的开发。例如,在人工智能领域,研究人员和工程师可以通过该数据集快速获取技术术语的准确翻译,从而促进国际间的学术交流和合作。此外,该数据集还可用于开发多语言技术词典和术语库,为跨语言信息检索和知识管理提供支持。
数据集最近研究
最新研究方向
在自然语言处理领域,PTT_en_ko数据集为技术术语翻译任务提供了新的研究方向。该数据集专注于英语-韩语双语技术术语的翻译,特别是在人工智能领域的应用。通过将原始英语技术术语与其韩语翻译并列展示,该数据集不仅提升了翻译模型的准确性,还增强了其在专业领域中的适用性。此外,该数据集还包含生物学和物理学领域的跨领域评估数据,为模型在多样化领域的泛化能力提供了测试平台。这一研究方向与当前多语言翻译模型的发展趋势相契合,尤其是在知识蒸馏技术的应用上,为高效技术术语翻译提供了新的解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作