PETCI

Name: PETCI
Creator: 芝加哥大学
Published: 2022-02-19 11:16:20
License: 暂无描述

arXiv2022-02-19 更新2024-06-21 收录

下载链接：

https://github.com/kt2k01/petci

下载链接

链接失效反馈

官方服务：

资源简介：

PETCI是一个由芝加哥大学创建的中文成语平行英语翻译数据集，包含4310条数据。该数据集通过结合人工和机器翻译的结果，旨在提高机器翻译系统及语言学习者对中文成语翻译的能力。数据集的构建过程包括从成语词典中收集翻译，以及使用Google和DeepL的机器翻译结果。PETCI的应用领域主要集中在提升机器翻译的准确性和辅助语言学习者理解成语的深层含义。

PETCI is a parallel Chinese idiom-English translation dataset developed by the University of Chicago, which consists of 4310 samples. This dataset integrates human and machine translation outputs, with the goal of improving both the performance of machine translation systems and the proficiency of language learners in translating Chinese idioms. The construction process of PETCI includes collecting translation pairs from idiom dictionaries, as well as leveraging machine translation results from Google and DeepL. The main application areas of PETCI focus on advancing the accuracy of machine translation and assisting language learners in comprehending the deep connotations of Chinese idioms.

提供机构：

芝加哥大学

创建时间：

2022-02-19

搜集汇总

数据集介绍

构建方式

在跨语言自然语言处理领域，汉语成语的翻译因其非组合性语义特征而构成显著挑战。PETCI数据集的构建巧妙地融合了人工与机器翻译资源，通过系统化方法整合了来自《中文成语英译词典》的权威人工翻译，并利用光学字符识别技术进行文本提取与校验。同时，该数据集纳入了Google与DeepL两大主流机器翻译系统的输出，通过网页界面自动化采集与OCR文本识别流程，确保了数据来源的多样性与规模。构建过程中还对翻译结果进行了细致的案例分析与质量筛选，移除了重复项与字典标注符号，最终形成了包含丰富平行翻译对的高质量语料库。

特点

PETCI数据集在汉语成语翻译资源中展现出独特的结构特征。其核心优势在于为每个成语提供了多个人工翻译变体与机器翻译结果，形成了具有释义多样性的平行语料。数据统计分析显示，人工翻译倾向于保持成语的平行结构与文化内涵，而机器翻译则常出现部分翻译、字面直译及结构断裂等现象。该数据集还系统标注了翻译中的特殊语言现象，如括号解释、分号分隔、专有名词幻觉等语言特征。与现有成语数据集相比，PETCI不仅覆盖了高频使用的4310个汉语成语，更提供了近3万条英文翻译，在规模与多样性方面均具有显著优势。

使用方法

该数据集为成语翻译研究提供了多任务应用框架。研究者可基于PETCI构建二元分类任务，训练模型区分优质翻译与欠佳翻译，实验表明结构感知的Tree-LSTM与BERT模型在此任务上表现优异。同时，数据集支持翻译改写任务，尽管基线序列到序列模型面临挑战，但为基于检索增强的生成方法提供了实验基础。使用时可按照论文划分的训练、验证、测试集进行模型评估，并通过平衡采样策略处理黄金翻译稀疏性问题。对于语言学习者，该数据集可作为翻译质量评估的参考标准；对于机器翻译系统，则可通过数据增强策略提升成语翻译的准确性与流畅性。

背景与挑战

背景概述

在自然语言处理领域，汉语成语因其非组合性语义特征，构成机器翻译与跨语言理解的核心难题。PETCI（汉语成语平行英译数据集）由芝加哥大学Kenan Tang等人构建，旨在通过整合词典翻译与机器译文，为成语翻译研究提供高质量资源。该数据集收录4310条汉语成语及其对应29936条英文翻译，覆盖高频成语的多元表达，其构建过程融合了OCR提取、网页爬取与人工校验技术，显著提升了现有双语成语数据集的规模与多样性。PETCI不仅为机器翻译模型优化提供基准，也为语言学习者提供了丰富的成语翻译范例，推动了计算语言学与文化翻译研究的交叉融合。

当前挑战

PETCI数据集面临的核心挑战集中于两方面：在领域问题层面，成语翻译需克服语义非组合性、文化负载词转换与隐喻结构解析等难题，现有机器翻译模型常产生字面直译、结构断裂或文化误读现象；在构建过程中，数据采集需处理词典扫描文本的OCR识别误差、机器翻译接口的异构输出格式，以及人工译文与机器译文在注释规范、罗马拼音体系与句式结构上的系统性差异。此外，数据稀疏性导致优质翻译标注不足，而改写任务中译文与标准翻译的高编辑距离，进一步增加了生成模型的训练难度。

常用场景

经典使用场景

在自然语言处理领域，成语翻译因其非组合性特质而成为机器翻译系统的薄弱环节。PETCI数据集通过整合词典翻译与机器翻译结果，为成语翻译质量评估提供了基准测试平台。该数据集最经典的使用场景在于训练和评估翻译质量分类模型，例如基于BERT和Tree-LSTM的架构能够有效区分优质翻译与存在结构缺陷的机器输出。这种分类任务不仅验证了模型对成语语义结构的理解能力，也为后续的翻译改写任务奠定了数据基础。

衍生相关工作

基于PETCI数据集的实验催生了多项针对成语翻译的衍生研究。在模型架构方面，研究验证了Tree-LSTM等结构感知模型在捕捉成语平行结构上的优势，启发了后续融合句法信息的翻译评估方法。在数据增强领域，对DeepL翻译单词语义编辑模式的分析，推动了基于同义词替换的成语翻译数据扩展技术。同时，该数据集为成语翻译改写任务提供了基准，促进了检索增强生成等技术在文化特定表达转换中的应用探索。

数据集最近研究