DiHUTra

github2024-03-19 更新2024-05-31 收录

下载链接：

https://github.com/katjakaterina/dihutra

下载链接

链接失效反馈

官方服务：

资源简介：

DiHUTra是一个平行语料库，用于分析人类翻译之间的差异。该数据集包含来自新闻和亚马逊评论的英文源文本及其翻译成俄语、克罗地亚语和芬兰语的文本。数据集包括专业和学生翻译，以及翻译者的年龄、性别、经验和学习计划信息。

DiHUTra is a parallel corpus designed for analyzing the differences among human translations. This dataset comprises English source texts from news articles and Amazon reviews, along with their translations into Russian, Croatian, and Finnish. It includes translations by both professional and student translators, as well as information on the translators' age, gender, experience, and educational programs.

创建时间：

2021-03-11

原始信息汇总

数据集概述

数据集名称

Dihutra (Differences in Human Translations)

数据集来源

由EAMT（欧洲机器翻译协会）2021年赞助活动支持下收集。

数据集内容

源语言: 英语
源文本类型: 新闻（来自WMT2020和2019）和亚马逊评论
目标语言: 俄语、克罗地亚语、芬兰语
翻译者类型: 专业翻译者和学生翻译者
子数据集:
- 亚马逊评论子数据集: 英语评论被翻译成俄语、克罗地亚语和芬兰语，由专业翻译者和学生翻译者完成。
- 新闻子数据集: 英语新闻被翻译成俄语（已从WMT共享任务中获得）和克罗地亚语（为此项目专门制作），芬兰语新闻未提供专业翻译。

附加信息

收集了翻译者的年龄、性别、经验和学生翻译者的学习项目信息。
要求翻译者保持句子对齐，不合并或分割句子，不使用机器翻译。

数据集用途

研究翻译变异
评估机器翻译系统

数据集托管

由Saarland大学（UdS）CLARIN-D中心的Fedora Commons Repository托管。

引用信息

持久标识符: http://hdl.handle.net/21.11119/0000-000A-1BA9-A
参考文献: Lapshinova-Koltunski, Ekaterina, Maja Popović and Maarit Koponen. 2022. DiHuTra: a Parallel Corpus to Analyse Differences between Human Translations. Submitted for LREC-2022.

许可证

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License: https://creativecommons.org/licenses/by-nc-sa/4.0/

搜集汇总

数据集介绍

构建方式

DiHUTra数据集的构建依托于EAMT（欧洲机器翻译协会）2021年的支持，旨在收集并分析人类翻译的差异性。该数据集涵盖了新闻文本（来自WMT2020和2019）和亚马逊评论的英文原文，以及其对应的俄语、克罗地亚语和芬兰语翻译。新闻文本的俄语翻译直接取自WMT共享任务，克罗地亚语翻译则为本研究特别生成，而芬兰语翻译仅针对亚马逊评论部分提供。所有翻译均由学生和专业译者分别完成，确保了翻译多样性的对比。此外，数据集还收集了译者的年龄、性别、经验及学习背景等信息，并要求译者在翻译过程中保持句子对齐，避免使用机器翻译工具。

特点

DiHUTra数据集的显著特点在于其多维度对比性。它不仅提供了同一源文本在多种目标语言中的翻译，还区分了学生和专业译者的翻译结果，为研究人类翻译的差异性提供了丰富素材。此外，数据集涵盖了中等资源语言（如克罗地亚语和芬兰语），填补了相关研究领域的空白。翻译过程中对句子对齐的严格要求，使其特别适用于当前机器翻译系统的评估与优化。数据集还包含了译者的背景信息，为翻译行为的社会语言学分析提供了可能。

使用方法

DiHUTra数据集的使用方法灵活多样，主要适用于翻译差异性和机器翻译系统的研究。研究者可通过对比学生与专业译者的翻译结果，深入分析人类翻译的多样性及其影响因素。同时，数据集的多语言特性为跨语言机器翻译模型的训练与评估提供了高质量语料。使用该数据集时，需遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0国际许可协议，确保在非商业用途下共享和改编研究成果。数据集托管于萨尔兰大学CLARIN-D中心的Fedora Commons存储库，用户可通过持久标识符访问并下载相关资源。

背景与挑战

背景概述

DiHUTra数据集由EAMT（欧洲机器翻译协会）于2021年资助创建，旨在研究人类翻译中的差异性。该数据集由萨兰德大学CLARIN-D中心托管，主要研究人员包括Ekaterina Lapshinova-Koltunski、Maja Popović和Maarit Koponen。数据集的核心研究问题在于对比专业译者和学生译者在翻译同一源文本时的差异，涵盖了英语新闻文本和亚马逊评论的翻译，目标语言包括俄语、克罗地亚语和芬兰语。这些语言在机器翻译领域属于中等资源语言，研究相对较少。DiHUTra不仅为人类翻译研究提供了宝贵资源，还为机器翻译系统的评估和改进提供了重要支持。

当前挑战

DiHUTra数据集在构建过程中面临多重挑战。首先，目标语言（俄语、克罗地亚语和芬兰语）属于中等资源语言，相关研究较少，数据获取和标注难度较大。其次，确保翻译过程中句子对齐的准确性至关重要，这要求译者在翻译时不得合并或拆分句子，这对译者的专业素养提出了较高要求。此外，数据集中包含的翻译者信息（如年龄、性别、经验等）的收集和处理也增加了数据构建的复杂性。最后，如何在不使用机器翻译的情况下获取高质量的人类翻译数据，同时保持翻译风格的多样性，是数据集构建中的另一大挑战。这些挑战不仅影响了数据集的构建过程，也为后续研究提供了重要的研究方向。

常用场景

经典使用场景

DiHUTra数据集在翻译研究领域中被广泛用于分析人类翻译的差异性。通过对比同一源文本由不同译者（包括学生和专业人士）翻译的结果，研究者能够深入探讨翻译过程中的个体差异和群体特征。这种对比分析不仅有助于理解翻译行为的多样性，还为翻译教育和培训提供了宝贵的实证数据。

衍生相关工作

DiHUTra数据集的发布催生了一系列相关研究，特别是在翻译质量评估和机器翻译领域。例如，基于该数据集的研究提出了新的翻译错误分类方法，并开发了更精确的翻译质量预测模型。此外，该数据集还被用于探索低资源语言翻译中的特殊问题，推动了多语言翻译技术的发展。

数据集最近研究