Legal-QE

Name: Legal-QE
Creator: University of Surrey NLP Group
Published: 2026-01-30 16:49:31
License: 暂无描述

Hugging Face2026-01-30 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/surrey-nlp/Legal-QE

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言法律领域平行语料库，包含英语与三种印度语言（古吉拉特语、泰米尔语、泰卢固语）之间的双向翻译数据。数据集规模介于1万至10万条之间，采用AFL-3.0许可证发布。每个语言对（en-gu/en-ta/en-te）配置包含完全相同的字段结构：索引编号、源文本、目标文本、质量评分（含原始分与标准化分数）、文本领域标签、唯一标识符以及语言对元数据。数据已划分为训练集（2160/1836/2160条）、验证集（270/230/270条）和测试集（270/230/270条），主要适用于机器翻译模型训练与评估任务，特别针对法律文本的专业翻译场景。

提供机构：

University of Surrey NLP Group

创建时间：

2026-01-30

搜集汇总

数据集介绍

构建方式

在法律文本机器翻译领域，高质量双语数据的稀缺性促使Legal-QE数据集应运而生。该数据集通过精心筛选法律领域的英文原文，并组织专业译者将其翻译为古吉拉特语、泰米尔语和泰卢固语三种印度语言，构建了三个独立的语言对配置。每个配置均包含训练集、验证集和测试集的标准划分，确保了模型开发与评估的完整性。数据构建过程不仅关注文本的平行对应，还引入了人工质量评估环节，为每条翻译样本标注了详细的评分和标准化分数，为研究提供了宝贵的质量监督信号。

特点

Legal-QE数据集的核心特点在于其专注于法律领域的低资源语言翻译，涵盖了古吉拉特语、泰米尔语和泰卢固语等代表性印度语言。数据集超越了简单的平行语料库范畴，其独特之处在于每条样本均附带了多维度的人工质量评估分数，包括原始评分、均值、标准化分数及其均值，这为机器翻译质量估计任务提供了直接的监督信息。数据规模适中，每个语言对包含数千条样本，并严格划分了训练、验证和测试集，确保了其在模型训练与评估中的实用性和可靠性。

使用方法

在机器翻译与质量估计的研究与应用中，Legal-QE数据集提供了明确的使用路径。研究者可直接加载特定的语言对配置，利用其标准的训练、验证和测试划分来训练或微调神经机器翻译模型。数据集内嵌的质量评分字段使其特别适用于开发翻译质量估计模型，研究者可将‘source_text’和‘target_text’作为输入，将‘mean’或‘z_mean’等分数作为预测目标进行回归或排序任务。此外，其清晰的语言和领域标签便于进行跨语言或特定领域的对比分析与模型泛化能力研究。

背景与挑战

背景概述

在自然语言处理领域，法律文本的机器翻译一直是一项极具挑战性的任务，尤其是针对资源稀缺的语言对。Legal-QE数据集应运而生，旨在推动英语与印度语言（如古吉拉特语、泰米尔语和泰卢固语）之间的法律文档翻译研究。该数据集由研究机构精心构建，专注于解决法律领域专业术语准确翻译与跨语言法律信息可及性的核心问题。其创建不仅丰富了低资源语言对的平行语料库，也为法律人工智能的发展提供了关键数据支撑，促进了跨语言法律服务的公平性与效率。

当前挑战

Legal-QE数据集所应对的领域挑战在于法律文本的复杂性与专业性，要求翻译模型能够精确处理法律术语、固定句式及文化特定概念，确保翻译结果的法律效力与一致性。在构建过程中，面临低资源语言高质量双语数据稀缺的难题，需通过专家标注与质量评估机制来保证语料的准确性与可靠性。同时，法律领域的敏感性与保密性要求数据收集与处理遵循严格伦理规范，增加了数据集构建的复杂度与成本。

常用场景

经典使用场景

在法律文本翻译领域，Legal-QE数据集为机器翻译质量评估提供了关键资源。该数据集专注于英语与古吉拉特语、泰米尔语、泰卢固语之间的法律文件翻译，包含源文本、目标文本及人工标注的质量分数。其经典使用场景在于训练和评估翻译质量估计模型，使研究者能够在不依赖参考译文的情况下，自动预测翻译输出的准确性与流畅度，从而优化低资源语言对的翻译系统性能。

解决学术问题

Legal-QE数据集有效解决了低资源语言机器翻译中质量评估的难题。传统翻译评估往往依赖高成本的人工参考译文，而该数据集通过提供大规模标注的法律领域平行语料，支持开发无参考的质量估计方法。这促进了跨语言法律信息处理的学术研究，降低了语言技术壁垒，对提升司法公平性和信息可及性具有深远意义。

衍生相关工作

围绕Legal-QE数据集，已衍生出多项经典研究工作。例如，基于其标注分数开发的神经质量估计模型，被广泛应用于WMT等国际翻译评测竞赛中。同时，该数据集也激发了针对低资源语言对的法律领域自适应翻译研究，促进了跨语言预训练模型的优化，为后续如IndicTrans等面向印度语系的翻译项目提供了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集