多语种法律翻译数据集
收藏国家基础学科公共科学数据中心2025-11-01 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=69023a11195d2632a803c490&type=1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集面向法律翻译质量评估,基于覆盖多司法管辖区与多语言的公开数据集Fairlex构建。数据集选取其中的英语、德语及法语原句,构建了包含6000余条高质量平行语料的数据资源。语料涵盖了复杂的法律语言现象与典型翻译难点,能够支持不同法律领域、难度级别及语言对的翻译测试与研究,为法律翻译的评估、教学与实践提供了多样化的场景与重要参考。
本数据集聚焦于法律领域的翻译质量评估,在数据集的构建过程中,我们特别选用了法律领域公开数据集Fairlex作为基础资源。Fairlex数据集具有广泛的覆盖范围,涵盖了四个具有代表性的司法管辖区,即欧洲理事会、美国、瑞士和中华人民共和国的法律文本。同时,它还涉及五种语言,包括英语、德语、法语、意大利语和中文,为法律翻译评估提供了丰富的语言素材。Fairlex数据集包含四个子数据集,每个子数据集都针对特定的司法管辖区和语言环境进行了精心设计。这种设计确保了评估的广泛性和多样性,使得我们能够从不同角度、不同层面深入评估法律翻译的特点和难点。本数据集则基于Fairlex中的英语、德语、法语原句构建而成,这些原句不仅具有高度的代表性,能够充分反映法律文本的语言特征和翻译需求,还囊括了法律文本中常见的复杂语言现象和潜在的翻译难点,如专业术语的准确翻译、句法结构的灵活转换以及文化背景的处理等。该数据集共计收集了6000余条高质量的平行语料,这些语料涵盖了不同法律领域、不同难度级别和不同语言对,为法律翻译测试提供了丰富的素材和多样的场景。无论是对于法律翻译研究、法律翻译教学还是法律翻译实践,本数据集都具有重要的参考价值和实用意义。
提供机构:
北京大学
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集基于多司法管辖区与多语言的Fairlex公开数据集构建,选取英语、德语和法语原句,形成了包含6000余条高质量平行语料的数据资源。它涵盖了法律领域的复杂语言现象和典型翻译难点,旨在支持法律翻译质量评估、教学与研究,提供多样化的测试场景和重要参考。
以上内容由遇见数据集搜集并总结生成



