dolfin

Hugging Face2025-01-31 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/LinguaCustodia/dolfin

下载链接

链接失效反馈

官方服务：

资源简介：

DOLFIN数据集是由Lingua Custodia和格勒诺布尔信息实验室领导的学术研究项目创建的。它基于公开的金融专业文档，主要包含金融监管文本，并经过了一个长期的处理流程。该数据集的目的是评估金融领域的文档级机器翻译。DOLFIN通过放弃对齐句子的范式，并以段落而非句子为单位呈现数据，向真正的文档级机器翻译迈进了一步。数据集包含五个语言对的约1950个对齐段落，并包含关于需要额外上下文才能正确翻译的上下文敏感现象的自动注释。

创建时间：

2025-01-28

搜集汇总

数据集介绍

构建方式

DOLFIN数据集的构建基于对公开的金融专业文档的深度处理。这些文档主要涵盖金融监管文本，并经过一系列复杂的数据处理流程。该数据集旨在评价文档级机器翻译在金融领域的性能，通过放弃传统的句子对齐范式，以文档的章节为单位呈现数据，从而向真正的文档级MT迈进。

特点

DOLFIN数据集的特点在于，它专门针对金融领域，包含五个语言对的平均1950个对齐的章节。数据集不仅包含源文本和目标文本，还包括文档类型、发布日期、语言标识、上下文敏感现象的自动注释等信息。这些注释有助于理解和处理需要额外上下文才能正确翻译的现象。

使用方法

使用DOLFIN数据集，研究者可以测试大型语言模型和机器翻译系统处理更长上下文并考虑上下文进行翻译的能力。数据集的结构包括多个字段，如源语言文本、目标语言文本、源语言、目标语言、子领域、发布日期、注释和唯一标识符等，这些字段为研究提供了丰富的信息基础。

背景与挑战

背景概述

DOLFIN数据集是在学术研究项目背景下，由Lingua Custodia机构与Grenoble计算机科学实验室的GETALP团队共同创建的。该数据集始建于近期，主要针对文档级机器翻译在金融领域的评估需求，其特色在于放弃了句子对齐的传统模式，而是以文档的章节为单位呈现数据。DOLFIN的构建基于公开的金融专业文档，包含大量的金融监管文本，并经历了复杂的数据处理流程。该数据集的创建旨在推动文档级MT技术的发展，对金融翻译领域产生了显著影响。

当前挑战

DOLFIN数据集面临的挑战主要包括两个方面：一是领域专业化程度高，对机器翻译系统的长文本处理能力和上下文理解能力提出了更高的要求；二是数据集构建过程中，如何准确识别并处理金融领域中的上下文敏感现象，这要求复杂的自动注释过程和高质量的数据处理管道。此外，DOLFIN在构建时也面临着获取足够高质量金融文本数据的挑战，以及确保翻译质量和评估标准一致性的挑战。

常用场景

经典使用场景

在机器翻译研究领域，DOLFIN数据集被广泛用于评估文档级机器翻译在金融领域的性能。该数据集以文档而非句子为单位，为机器翻译模型提供了处理长上下文的能力，从而在翻译时能够更好地考虑上下文信息。

解决学术问题

DOLFIN数据集解决了文档级机器翻译测试集稀缺的问题，尤其是在专业领域如金融和法律的测试集。它通过放弃句子对齐范式，转而采用文档章节单位，为评估机器翻译系统在面对信息重组等复杂语言现象时的表现提供了可能。

衍生相关工作

DOLFIN数据集的创建促进了相关领域的研究工作，如文档级机器翻译的评价指标研究、上下文敏感现象的自动标注方法研究，以及针对金融领域翻译系统的专门优化算法研究等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集