SwiLTra-Bench

Name: SwiLTra-Bench
Creator: 瑞士联邦最高法院,苏黎世联邦理工学院,巴塞尔大学,日内瓦大学,洛桑大学,索洛图恩州,马克斯·普朗克集体货物研究所
Published: 2025-03-03 18:10:30
License: 暂无描述

arXiv2025-03-03 更新2025-03-06 收录

下载链接：

https://huggingface.co/collections/joelniklaus/swiltrabench-67c569a2ada47e4549733deb

下载链接

链接失效反馈

官方服务：

资源简介：

SwiLTra-Bench是一个包含超过18万对对齐的瑞士法律翻译数据集，涵盖法律、判决摘要和新闻发布会等多个领域，包含德语、法语、意大利语、罗曼什语和英语五种语言。该数据集由瑞士官方机构提供，并通过高质量的对齐方式构建。它旨在评估LLM-based翻译系统在法律翻译任务上的性能。

SwiLTra-Bench is a benchmark dataset consisting of over 180,000 aligned Swiss legal translation pairs. It covers multiple domains including law, judgment summaries, and press conferences, and supports five languages: German, French, Italian, Romansh, and English. This dataset is provided by official Swiss institutions and constructed with high-quality alignment. It aims to evaluate the performance of LLM-based translation systems in legal translation tasks.

提供机构：

瑞士联邦最高法院,苏黎世联邦理工学院,巴塞尔大学,日内瓦大学,洛桑大学,索洛图恩州,马克斯·普朗克集体货物研究所

创建时间：

2025-03-03

搜集汇总

数据集介绍

构建方式

SwiLTra-Bench数据集的构建基于瑞士法律文本和新闻稿的平行翻译对，涵盖了瑞士的四种官方语言以及英语。数据集包括超过18万个对齐的翻译对，包括法律、摘要和新闻稿等类型。数据收集过程中，确保了每个数据集的完整性和多样性，同时避免了单个文件在训练、验证和测试集之间的分割。数据统计显示，SwiLTra-Bench提供了大量的多语言法律翻译数据，为训练和评估基于LLM的翻译系统提供了丰富的资源。

使用方法

SwiLTra-Bench数据集的使用方法主要包括对基于LLM的翻译系统进行评估和训练。研究者可以使用该数据集来评估不同模型的翻译性能，包括翻译模型、前沿模型、推理模型、开放模型和微调模型等。通过SwiLTra-Bench，研究者可以了解不同模型在不同类型法律文本上的表现，并选择最适合自己需求的模型。此外，SwiLTra-Bench还可以用于训练新的翻译模型，以提高法律翻译的准确性和效率。

背景与挑战

背景概述

SwiLTra-Bench 数据集的创建旨在应对瑞士法律翻译中存在的独特挑战。瑞士是一个多语言国家，拥有四种官方语言，对多语言法律文件的需求很高。然而，这一过程传统上依赖于既是法律专家又是熟练翻译人员的专业人士，这导致了瓶颈，并影响了司法公正的有效获取。为了解决这个问题，SwiLTra-Bench 数据集应运而生，这是一个包含超过 18 万对瑞士法律翻译的全面多语言基准数据集，涵盖了所有瑞士语言以及英语，旨在评估基于大型语言模型（LLM）的翻译系统。该数据集由来自瑞士联邦最高法院、苏黎世大学、巴塞尔大学、日内瓦大学、洛桑大学、索洛图恩州、马克斯普朗克集体物品研究所等机构的研究人员共同创建。SwiLTra-Bench 数据集的创建对法律翻译领域产生了深远的影响，为机器翻译研究提供了宝贵的资源，有助于提高法律翻译的自动化程度，促进法律信息的民主化，并提升政治决策的透明度。

当前挑战

SwiLTra-Bench 数据集相关的挑战主要包括：1) 解决法律翻译中存在的语言结构、专业术语和自动化程度低的问题；2) 构建过程中遇到的挑战，如数据收集、文本对齐、模型训练和评估等。SwiLTra-Bench 数据集的创建解决了瑞士法律翻译数据稀缺的问题，为机器翻译研究提供了大量的训练数据。然而，由于法律文本的特定术语和结构，以及翻译的准确性要求，SwiLTra-Bench 数据集在构建过程中仍面临诸多挑战。

常用场景

经典使用场景

SwiLTra-Bench 是一个包含超过 180K 对齐的瑞士法律翻译对的综合性多语言基准，涵盖了所有瑞士语言以及英语，旨在评估基于 LLM 的翻译系统。这个数据集的经典使用场景包括法律翻译、法院判决翻译和新闻发布会翻译。通过使用 SwiLTra-Bench，研究人员和开发者可以评估和比较不同翻译系统的性能，从而选择最适合他们需求的系统。

解决学术问题

SwiLTra-Bench 解决了当前缺乏高质量多语言平行法律翻译数据的问题，这对于训练 LLM 来翻译法律文本至关重要。这个数据集提供了大量的瑞士法律翻译对，可以帮助研究人员开发更可靠的 NMT 系统，从而提高政府效率并减少行政瓶颈。此外，SwiLTra-Bench 还可以帮助研究人员解决法律文本的特定术语和话语结构问题，从而提高自动化翻译的程度。

实际应用

SwiLTra-Bench 的实际应用场景包括政府部门、律师事务所和跨国公司。政府部门可以使用这个数据集来提高法律翻译的效率和质量，从而更好地服务于公民。律师事务所可以使用 SwiLTra-Bench 来为客户提供更快速和成本更低的翻译服务。跨国公司可以使用 SwiLTra-Bench 来翻译他们在不同语言区域的法律文件，从而更好地管理他们的业务。

数据集最近研究