Tourism-QE
收藏Hugging Face2026-01-30 更新2026-02-02 收录
下载链接:
https://huggingface.co/datasets/surrey-nlp/Tourism-QE
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含三种语言对的平行语料(英语-印地语、英语-马拉地语、英语-泰卢固语),主要用于机器翻译及相关任务。每个语言对配置包含训练集、验证集和测试集,并提供了丰富的元数据字段。数据集特征包括:源文本(source_text)、目标文本(target_text)、评分(scores)、平均分(mean)、Z分数(z_scores)、Z均值(z_mean)、领域(domain)、ID(id)、源语言(source_lang)、目标语言(target_lang)和语言对(language_pair)等信息。具体规模为:英语-印地语(3200训练/400验证/400测试样本)、英语-马拉地语(8456训练/1057验证/1057测试样本)、英语-泰卢固语(2160训练/270验证/270测试样本)。数据集采用标准的分割方式,适合用于机器翻译质量评估、跨语言信息检索等自然语言处理任务。
提供机构:
University of Surrey NLP Group
创建时间:
2026-01-30
搜集汇总
数据集介绍

构建方式
在旅游领域多语言机器翻译质量评估的研究背景下,Tourism-QE数据集通过精心设计的流程构建而成。该数据集涵盖了英语与印地语、马拉地语及泰卢固语三种印度语言之间的平行语料,每个语言对均包含训练集、验证集和测试集的标准划分。数据收集聚焦于旅游领域的文本内容,确保了领域内语言特征的真实性与代表性。构建过程中,每条数据均标注了源文本与目标文本,并引入了人工评估生成的质量分数,包括原始得分与标准化后的Z分数,为翻译质量提供了量化依据。
特点
Tourism-QE数据集的核心特点在于其专注于旅游领域的多语言质量评估任务。数据集不仅提供了英语与三种印度语言的高质量平行句对,还附带了详尽的人工评估分数,如平均分和Z分数均值,这为深入分析翻译质量分布与可靠性提供了丰富维度。其结构清晰,每个配置均包含标准的训练、验证和测试分割,便于模型开发与评估流程的直接应用。数据字段设计完备,涵盖语言对、领域及唯一标识等信息,支持灵活的跨语言与领域分析。
使用方法
针对机器翻译质量估计模型的训练与评估,Tourism-QE数据集提供了直接的应用路径。研究人员可加载特定语言对的配置,利用训练集进行模型参数学习,并通过验证集调整超参数,最终在测试集上评估模型性能。数据集中的质量分数可作为监督信号,用于训练回归或排名模型,预测翻译输出的质量。此外,其标准化的数据分割与丰富元数据支持跨语言迁移学习与领域适应性研究,为旅游文本的自动翻译质量评估提供了基准资源。
背景与挑战
背景概述
Tourism-QE数据集聚焦于旅游领域的机器翻译质量评估任务,由研究机构于近年构建,旨在解决低资源语言对在专业场景下的翻译质量量化难题。该数据集涵盖了英语与印地语、马拉地语、泰卢固语等多语种配对,通过人工标注的翻译质量分数,为构建自动化质量评估模型提供了关键数据支持。其创建推动了跨语言旅游信息服务的技术发展,尤其在促进南亚地区语言技术应用方面具有显著影响力,填补了专业领域翻译评估数据匮乏的空白。
当前挑战
该数据集致力于解决旅游领域机器翻译质量评估的挑战,具体包括低资源语言对翻译质量的精准量化、领域专业术语的评估一致性,以及人工评分的主观性偏差问题。在构建过程中,挑战主要源于多语种平行语料的收集与对齐困难,尤其是在旅游文本中文化特定表达的标注复杂性,以及确保不同语言对间评分标准统一的数据质量控制。
常用场景
经典使用场景
在旅游领域的跨语言自然语言处理研究中,Tourism-QE数据集为机器翻译质量评估提供了关键资源。该数据集包含英语与印地语、马拉地语、泰卢固语之间的平行文本,并附有人工标注的质量分数,使得研究者能够训练和验证自动评估模型,以衡量翻译输出的流畅度与准确性。这一场景直接支持了多语言旅游信息服务的优化,促进了跨文化交流的便捷性。
实际应用
在实际应用中,Tourism-QE数据集被广泛用于开发旅游行业的智能翻译系统。例如,在线旅游平台可基于该数据集训练的质量评估模型,自动筛选和优化多语言景点介绍、酒店预订信息等内容的翻译结果,确保信息传达的准确性与文化适应性。这显著提升了全球游客的体验,并助力旅游业的数字化转型与国际化拓展。
衍生相关工作
围绕Tourism-QE数据集,学术界衍生了一系列经典研究工作,包括基于深度学习的自动质量评估模型构建、跨语言迁移学习方法的探索,以及低资源语言翻译优化算法的设计。这些工作不仅扩展了数据集的适用范围,还促进了多语言评估标准的统一,为后续如IndicTrans等针对印度语言的大规模翻译项目提供了重要的技术参考与数据支持。
以上内容由遇见数据集搜集并总结生成



