SwiLTra-Bench
收藏arXiv2025-03-03 更新2025-03-06 收录
下载链接:
https://huggingface.co/collections/joelniklaus/swiltrabench-67c569a2ada47e4549733deb
下载链接
链接失效反馈官方服务:
资源简介:
SwiLTra-Bench是一个包含超过18万对对齐的瑞士法律翻译数据集,涵盖法律、判决摘要和新闻发布会等多个领域,包含德语、法语、意大利语、罗曼什语和英语五种语言。该数据集由瑞士官方机构提供,并通过高质量的对齐方式构建。它旨在评估LLM-based翻译系统在法律翻译任务上的性能。
SwiLTra-Bench is a benchmark dataset consisting of over 180,000 aligned Swiss legal translation pairs. It covers multiple domains including law, judgment summaries, and press conferences, and supports five languages: German, French, Italian, Romansh, and English. This dataset is provided by official Swiss institutions and constructed with high-quality alignment. It aims to evaluate the performance of LLM-based translation systems in legal translation tasks.
提供机构:
瑞士联邦最高法院,苏黎世联邦理工学院,巴塞尔大学,日内瓦大学,洛桑大学,索洛图恩州,马克斯·普朗克集体货物研究所
创建时间:
2025-03-03
搜集汇总
数据集介绍

构建方式
SwiLTra-Bench数据集的构建基于瑞士法律文本和新闻稿的平行翻译对,涵盖了瑞士的四种官方语言以及英语。数据集包括超过18万个对齐的翻译对,包括法律、摘要和新闻稿等类型。数据收集过程中,确保了每个数据集的完整性和多样性,同时避免了单个文件在训练、验证和测试集之间的分割。数据统计显示,SwiLTra-Bench提供了大量的多语言法律翻译数据,为训练和评估基于LLM的翻译系统提供了丰富的资源。
使用方法
SwiLTra-Bench数据集的使用方法主要包括对基于LLM的翻译系统进行评估和训练。研究者可以使用该数据集来评估不同模型的翻译性能,包括翻译模型、前沿模型、推理模型、开放模型和微调模型等。通过SwiLTra-Bench,研究者可以了解不同模型在不同类型法律文本上的表现,并选择最适合自己需求的模型。此外,SwiLTra-Bench还可以用于训练新的翻译模型,以提高法律翻译的准确性和效率。
背景与挑战
背景概述
SwiLTra-Bench 数据集的创建旨在应对瑞士法律翻译中存在的独特挑战。瑞士是一个多语言国家,拥有四种官方语言,对多语言法律文件的需求很高。然而,这一过程传统上依赖于既是法律专家又是熟练翻译人员的专业人士,这导致了瓶颈,并影响了司法公正的有效获取。为了解决这个问题,SwiLTra-Bench 数据集应运而生,这是一个包含超过 18 万对瑞士法律翻译的全面多语言基准数据集,涵盖了所有瑞士语言以及英语,旨在评估基于大型语言模型(LLM)的翻译系统。该数据集由来自瑞士联邦最高法院、苏黎世大学、巴塞尔大学、日内瓦大学、洛桑大学、索洛图恩州、马克斯普朗克集体物品研究所等机构的研究人员共同创建。SwiLTra-Bench 数据集的创建对法律翻译领域产生了深远的影响,为机器翻译研究提供了宝贵的资源,有助于提高法律翻译的自动化程度,促进法律信息的民主化,并提升政治决策的透明度。
当前挑战
SwiLTra-Bench 数据集相关的挑战主要包括:1) 解决法律翻译中存在的语言结构、专业术语和自动化程度低的问题;2) 构建过程中遇到的挑战,如数据收集、文本对齐、模型训练和评估等。SwiLTra-Bench 数据集的创建解决了瑞士法律翻译数据稀缺的问题,为机器翻译研究提供了大量的训练数据。然而,由于法律文本的特定术语和结构,以及翻译的准确性要求,SwiLTra-Bench 数据集在构建过程中仍面临诸多挑战。
常用场景
经典使用场景
SwiLTra-Bench 是一个包含超过 180K 对齐的瑞士法律翻译对的综合性多语言基准,涵盖了所有瑞士语言以及英语,旨在评估基于 LLM 的翻译系统。这个数据集的经典使用场景包括法律翻译、法院判决翻译和新闻发布会翻译。通过使用 SwiLTra-Bench,研究人员和开发者可以评估和比较不同翻译系统的性能,从而选择最适合他们需求的系统。
解决学术问题
SwiLTra-Bench 解决了当前缺乏高质量多语言平行法律翻译数据的问题,这对于训练 LLM 来翻译法律文本至关重要。这个数据集提供了大量的瑞士法律翻译对,可以帮助研究人员开发更可靠的 NMT 系统,从而提高政府效率并减少行政瓶颈。此外,SwiLTra-Bench 还可以帮助研究人员解决法律文本的特定术语和话语结构问题,从而提高自动化翻译的程度。
实际应用
SwiLTra-Bench 的实际应用场景包括政府部门、律师事务所和跨国公司。政府部门可以使用这个数据集来提高法律翻译的效率和质量,从而更好地服务于公民。律师事务所可以使用 SwiLTra-Bench 来为客户提供更快速和成本更低的翻译服务。跨国公司可以使用 SwiLTra-Bench 来翻译他们在不同语言区域的法律文件,从而更好地管理他们的业务。
数据集最近研究
最新研究方向
SwiLTra-Bench 数据集的引入,为瑞士多语言法律文本的翻译研究提供了强有力的支持。该数据集的构建旨在解决瑞士法律翻译中专业人才短缺的问题,通过收集超过 180K 对齐的瑞士法律翻译对,涵盖了瑞士四种官方语言和英语。该数据集的发布,不仅丰富了现有的多语言法律翻译数据,也为评估大型语言模型 (LLM) 基于翻译系统的性能提供了基准。研究结果表明,前沿模型在所有文档类型中均表现出优异的翻译性能,而专门的翻译系统则在法律翻译中表现出色,但在摘要翻译中表现不佳。此外,通过精细调整开源 SLMs,可以显著提高其翻译质量,但仍落后于最佳零样本提示的前沿模型。SwiLTra-Judge 的提出,为法律翻译评估提供了一个可靠的自动化框架。该研究对于推动法律翻译自动化进程,提高政府效率,以及促进多语言国家的法律信息获取具有重要意义。
相关研究论文
- 1SwiLTra-Bench: The Swiss Legal Translation Benchmark瑞士联邦最高法院,苏黎世联邦理工学院,巴塞尔大学,日内瓦大学,洛桑大学,索洛图恩州,马克斯·普朗克集体货物研究所 · 2025年
以上内容由遇见数据集搜集并总结生成



