PTT_en_ko
收藏Parenthetical Terminology Translation (PTT) Dataset
概述
Parenthetical Terminology Translation (PTT) 数据集旨在评估和训练模型在翻译技术术语时保持专业领域的清晰度和准确性。该数据集包含英语-韩语双语句子对,其中原始英语技术术语以括号形式显示在其韩语翻译旁边。主要数据集涵盖人工智能(AI)领域,并使用物理学和生物学的额外域外(OOD)数据集进行评估。
数据集结构
- 语言: 英语, 韩语
- 领域:
- 主要领域: 人工智能 (AI)
- 域外评估: 生物学, 物理学
- 翻译格式: 韩语翻译中的每个技术术语后跟其原始英语术语,括号内显示。
数据集分割
AI 领域 (主要数据集)
| 分割 | 句子对数量 |
|---|---|
| 训练 | 1,116 |
| 验证 | 144 |
| 测试 | 138 |
域外 (OOD) 数据集
| 领域 | 句子对数量 |
|---|---|
| 亚细胞过程 (q-bio.SC) | 171 |
| 介观和纳米尺度物理学 (cond-mat.mes-hall) | 60 |
| 高能物理学 (hep-ex) | 168 |
数据字段
每个句子对包含以下字段:
- terms_set_index: 与句子相关的技术术语集的标识符。
- terms: 句子中使用的技术术语列表。
- duplicated: 布尔标志,指示同一技术术语是否在句子中出现多次 (True 或 False)。
- english: 包含技术术语的原始英语句子。
- korean: 源句子的韩语翻译,括号内显示英语技术术语。
数据集加载
可以使用 Hugging Face datasets 库加载数据集:
python
from datasets import load_dataset
dataset = load_dataset("PrompTart/PTT_en_ko")
引用
如果在研究中使用此数据集,请按以下方式引用: tex @misc{myung2024efficienttechnicaltermtranslation, title={Efficient Technical Term Translation: A Knowledge Distillation Approach for Parenthetical Terminology Translation}, author={Jiyoon Myung and Jihyeon Park and Jungki Son and Kyungro Lee and Joohyung Han}, year={2024}, eprint={2410.00683}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.00683}, }
联系
如有问题或反馈,请联系 jiyoon0424@gmail.com。




