General-QE

Name: General-QE
Creator: University of Surrey NLP Group
Published: 2026-01-30 16:49:17
License: 暂无描述

Hugging Face2026-01-30 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/surrey-nlp/General-QE

下载链接

链接失效反馈

官方服务：

资源简介：

General-QE 是一个多语言机器翻译质量评估数据集，包含英语与五种印度语言（古吉拉特语、印地语、马拉地语、泰米尔语、泰卢固语）的平行文本及质量评分。数据集由五个子配置组成，每个配置包含以下核心字段：源文本(source_text)、目标文本(target_text)、质量分数(scores, z_scores)、平均分数(mean, z_mean)、领域(domain)、语言对标识(language_pair)。数据已划分为训练集（2880-8253条）、验证集（360-1032条）和测试集（360-1032条），各语言对数据量不等。该数据集适用于机器翻译质量评估、多语言NLP模型训练等任务。

提供机构：

University of Surrey NLP Group

创建时间：

2026-01-30

搜集汇总

数据集介绍

构建方式

在机器翻译质量评估领域，高质量标注数据的稀缺性促使了General-QE数据集的构建。该数据集通过整合英语与五种印度语言（古吉拉特语、印地语、马拉地语、泰米尔语、泰卢固语）之间的平行语料，系统性地收集了源文本与目标文本对。每个样本均经过人工或自动化流程标注了详细的分数序列、均值及标准化分数，并明确标识了领域、语言对和唯一ID，确保了数据在结构和内容上的严谨性与可追溯性。

特点

General-QE数据集在机器翻译质量评估任务中展现出鲜明的多语言与多领域特性。它涵盖了英语与五种印度语言的双向翻译对，每个配置均提供训练集、验证集和测试集的标准化划分。数据集不仅包含原始文本，还附带了丰富的质量评分指标，如原始分数、均值、标准化分数及其均值，这些元数据为模型训练与评估提供了细粒度的监督信号。其结构化的特征设计支持跨语言与跨领域的对比分析。

使用方法

针对机器翻译质量评估的研究与应用，General-QE数据集可直接通过HuggingFace数据集库加载使用。研究者可依据具体语言对选择相应配置，如'en-hindi'或'en-tamil'，便捷地获取已划分的数据切片。该数据集适用于有监督的质量评估模型训练，可利用提供的分数作为标签进行回归或分类任务；同时，其标准化的验证集与测试集也为模型性能的公平比较与基准测试提供了可靠基础。

背景与挑战

背景概述

在机器翻译质量评估领域，针对低资源语言对的研究长期面临数据稀缺的困境。General-QE数据集应运而生，其构建旨在为英语与多种印度语言之间的翻译质量评估提供标准化基准。该数据集涵盖了英语与古吉拉特语、印地语、马拉地语、泰米尔语和泰卢固语五种语言对的平行语料，并附有人工标注的质量分数。通过纳入不同领域的文本，该资源为开发跨语言质量评估模型奠定了数据基础，推动了多语言自然语言处理技术的发展。

当前挑战

该数据集致力于解决低资源语言机器翻译质量自动评估的挑战，其核心在于如何构建能够准确反映人工判断、且对语言特性与领域变化具有鲁棒性的评估模型。在构建过程中，挑战体现在多个方面：为低资源语言收集高质量、领域多样的平行语料本身存在困难；组织人工进行可靠且一致的质量标注需要严谨的设计与质量控制；此外，如何设计有效的特征（如提供的分数与标准化分数）以捕捉翻译错误的细微差别，也是数据集构建的关键技术难点。

常用场景

经典使用场景

在机器翻译质量评估领域，General-QE数据集为研究者提供了一个标准化的基准平台，尤其专注于英语与多种印度语言之间的翻译质量评估。该数据集通过包含英语与古吉拉特语、印地语、马拉地语、泰米尔语和泰卢固语等语言对的平行文本，并附有详细的评分和标准化分数，使得研究人员能够系统地训练和测试自动质量评估模型。这些模型能够在不依赖人工参考译文的情况下，快速预测机器翻译输出的质量，从而显著提升评估效率。

衍生相关工作

基于General-QE数据集，学术界衍生了一系列经典研究工作。这些工作主要集中在开发先进的神经网络质量评估模型，如基于Transformer的预测架构，以及探索跨语言和跨领域的评估迁移学习策略。部分研究利用该数据集的分数分布和领域信息，深入分析了评估模型在不同文本类型上的鲁棒性。这些成果不仅丰富了质量评估的理论体系，也为WMT等国际评测中的相关任务提供了重要的模型和基线参考。

数据集最近研究