translation_check_synth

Hugging Face2025-03-06 更新2025-03-07 收录

下载链接：

https://huggingface.co/datasets/MaxHahnbueck/translation_check_synth

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含7个子集：德语独有句子、英语独有句子、随机错配的德英句子对、使用GPT-3.5正确翻译的德语到英语句子、使用GPT-3.5正确翻译的英语到德语句子、故意引入错误的德语到英语翻译句子（包括否定、添加和一般性错误），以及故意引入错误的英语到德语翻译句子（包括否定、添加和一般性错误）。

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

translation_check_synth数据集依据论文《Translation Check in Financial Documents》构建，旨在为翻译错误检测提供训练资源。数据集包含七个子集，通过精心设计的配置文件定义，涵盖了从单一语言句子到正确及错误翻译对的不同类别。每个子集的训练数据均以.json格式存储，确保了数据格式的统一性和易用性。构建过程中，正确翻译的句子使用GPT-3.5模型生成，错误翻译则通过引导模型故意引入否定、添加无关信息或总体错误等类型，以模拟真实场景中的翻译偏差。

特点

该数据集具有明显的特点，涵盖了金融文档翻译中可能出现的各类错误，包括随机错配的句子对、仅含德语或英语的句子集，以及故意引入错误的翻译对。这些错误类型包括否定、添加和一般性错误，旨在为模型训练提供丰富多样的错误样本，增强模型对翻译错误的识别能力。数据集规模适中，符合10K<n<100K的大小分类，便于在多种计算资源上进行训练和测试。

使用方法

使用translation_check_synth数据集时，用户可根据具体的研究需求选择相应的子集。每个子集都提供了训练集，可用于训练翻译错误检测模型。用户需要通过配置文件指定数据路径，利用HuggingFace的数据加载工具进行数据处理。此外，数据集的多样化特性也适用于翻译质量评估、模型鲁棒性测试等多种场景，为相关领域的研究提供了有力的数据支撑。

背景与挑战

背景概述

translation_check_synth数据集，隶属于正在Language Resources and Evaluation期刊审稿阶段的论文《Translation Check in Financial Documents》，旨在对金融文件中的翻译进行检查。该数据集创建于近期，由研究人员利用GPT-3.5生成，包含7个子集，涵盖了德语和英语两种语言。数据集的核心研究问题是如何训练模型以识别翻译错误，这对于金融领域翻译的精确性和可靠性具有重要影响。

当前挑战

该数据集在构建过程中面临的主要挑战包括生成具有实际意义的错误翻译，这些错误需在保持语言结构的同时，引入否定的添加、无关信息的插入以及意义扭曲等类型。此外，数据集在解决翻译领域问题方面的挑战在于，不仅要正确匹配语言对应的翻译，还要能够准确识别由GPT-3.5引入的各类翻译错误，这对于模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，translation_check_synth数据集被广泛用于机器翻译的错误检测研究。该数据集提供了正确与错误的翻译实例，其中包含德语到英语和英语到德语的翻译对，特别适用于训练和评估翻译系统的准确性。

衍生相关工作

translation_check_synth数据集衍生出了多项相关工作，如构建基于该数据集的翻译错误检测模型，以及研究翻译错误对金融决策的影响。这些研究进一步扩展了数据集的应用范围，对金融翻译领域产生了深远影响。

数据集最近研究