XC-Translate

github2024-11-09 更新2024-11-28 收录

下载链接：

https://github.com/apple/ml-kg-mt

下载链接

链接失效反馈

官方服务：

资源简介：

XC-Translate是一个用于评估机器翻译系统在包含实体名称的文本上的性能的基准数据集。该数据集包含从英语到阿拉伯语、德语、西班牙语、法语、意大利语、日语、韩语、泰语、土耳其语和中文的10个语言对，每个语言对包含约4,000到6,000行数据，总共约58,000行数据。

XC-Translate is a benchmark dataset developed to evaluate the performance of machine translation systems on text containing entity names. It includes 10 language pairs from English to Arabic, German, Spanish, French, Italian, Japanese, Korean, Thai, Turkish and Chinese, with each language pair containing approximately 4,000 to 6,000 lines of data, resulting in a total of about 58,000 lines overall.

创建时间：

2024-11-09

原始信息汇总

XC-Translate 数据集概述

数据集简介

XC-Translate 是一个用于评估机器翻译系统在包含实体名称的文本上的性能的基准数据集。该数据集专注于可能具有文化差异的实体名称的翻译，涵盖从英语到阿拉伯语、德语、西班牙语、法语、意大利语、日语、韩语、泰语、土耳其语和中文的10种语言对。

语言对

XC-Translate 包含以下语言对：

en to ar - 英语到阿拉伯语
en to de - 英语到德语
en to es - 英语到西班牙语
en to fr - 英语到法语
en to it - 英语到意大利语
en to ja - 英语到日语
en to ko - 英语到韩语
en to th - 英语到泰语
en to tr - 英语到土耳其语
en to zh - 英语到中文

数据统计

每个语言对包含约4,000到6,000行数据，总计约58,000行数据。具体统计如下：

语言对	行数
en-ar	5,339
en-de	6,677
en-es	6,149
en-fr	6,264
en-it	5,901
en-ja	5,904
en-ko	5,900
en-th	4,230
en-tr	5,280
en-zh	5,977
总计	57,621

数据组织

数据按以下方式组织：

data/ └── xct ├── predictions │ ├── to_ar_AE │ ├── to_de_DE │ ├── to_es_ES │ ├── to_fr_FR │ ├── to_it_IT │ │ ├── it_IT.gpt-3.5.json │ │ ├── it_IT.gpt-3.json │ │ ├── it_IT.gpt-4.json │ │ ├── it_IT.kgmt-m2m.json │ │ ├── it_IT.kgmt-mbart.json │ │ ├── it_IT.kgmt-nllb.json │ │ ├── it_IT.m2m.json │ │ ├── it_IT.mbart.json │ │ └── it_IT.nllb.json │ ├── to_ja_JP │ ├── to_ko_KR │ ├── to_th_TH │ ├── to_tr_TR │ └── to_zh_TW ... └── references └── all ├── ar_AE.jsonl ├── de_DE.jsonl ├── es_ES.jsonl ├── fr_FR.jsonl ├── it_IT.jsonl ├── ja_JP.jsonl ├── ko_KR.jsonl ├── th_TH.jsonl ├── tr_TR.jsonl └── zh_TW.jsonl

data/xct/all/references/ 包含每个语言对的人工翻译。
data/xct/predictions/ 包含每个语言对和模型的预测结果。

数据格式

每行数据包含以下字段： json { "id": "Q2461698_0", "wikidata_id": "Q2461698", "entity_types": [ "Fictional entity" ], "source": "Who are the main antagonistic forces in the World of Ice and Fire?", "targets": [ { "translation": "Chi sono le principali forze antagoniste nel mondo delle Cronache del ghiaccio e del fuoco?", "mention": "mondo delle Cronache del ghiaccio e del fuoco" } ], "source_locale": "en", "target_locale": "it" }

id：行的唯一标识符。
wikidata_id：Wikidata中的实体ID。
entity_types：实体类型列表。
source：源文本（英语）。
targets：目标语言的翻译列表。
source_locale：源语言。
target_locale：目标语言。

示例

Ring a Ring o Roses 翻译为 Girotondo 意大利语： json { "id": "Q746666_0", "wikidata_id": "Q746666", "entity_types": [ "Musical work" ], "source": "Can you sing the chorus of the folk song Ring a Ring o Roses?", "targets": [ { "translation": "Puoi cantare il ritornello della canzone popolare Girotondo?", "mention": "Girotondo" }, { "translation": "Sai cantare il ritornello del girotondo, la canzone popolare?", "mention": "girotondo" } ], "source_locale": "en", "target_locale": "it" }
Mary of Burgundy 翻译为 Maria di Borgogna 和 Maximilian I 翻译为 Massimiliano I 意大利语： json { "id": "Q157073_0", "wikidata_id": "Q157073", "entity_types": [ "Person" ], "source": "How long was Mary of Burgundy married to Emperor Maximilian I?", "targets": [ { "translation": "Per quanto tempo Maria di Borgogna è stata sposata con limperatore Massimiliano I?", "mention": "Maria di Borgogna" }, { "translation": "Per quanto tempo Maria di Borgogna è stata sposata con limperatore Massimiliano I", "mention": "Maria di Borgogna" } ], "source_locale": "en", "target_locale": "it" }
Little Women 翻译为 Mujercitas 西班牙语： json { "id": "Q850522_0", "wikidata_id": "Q850522", "entity_types": [ "Movie" ], "source": "Who are the main characters in the movie Little Women?", "targets": [ { "translation": "¿Quiénes son los personajes principales de la película Mujercitas?", "mention": "Mujercitas" } ], "source_locale": "en", "target_locale": "es" }
A Room of Ones Own 翻译为 Una habitación propia 西班牙语： json { "id": "Q1204366_1", "wikidata_id": "Q1204366", "entity_types": [ "Book" ], "source": "Who is the author of the book A Room of Ones Own?", "targets": [ { "translation": "¿Quién es el autor del libro Una habitación propia?", "mention": "Una habitación propia" }, { "translation": "¿Quién es el autor del libro Una habitacion propia?", "mention": "Una habitacion propia" } ], "source_locale": "en", "target_locale": "es" }

搜集汇总

数据集介绍

构建方式

XC-Translate数据集的构建聚焦于包含文化相关实体名称的文本，旨在评估机器翻译系统在处理跨文化翻译任务中的表现。该数据集由人工精心创建，涵盖了从英语到阿拉伯语、德语、西班牙语、法语、意大利语、日语、韩语、泰语、土耳其语和中文的10种语言对。每个语言对包含约4,000至6,000行数据，总计约58,000行。数据组织结构清晰，分为参考翻译和模型预测两部分，便于模型评估和结果复现。

特点

XC-Translate数据集的主要特点在于其专注于文化相关的实体翻译，这些实体在不同语言中的表达可能存在显著差异。数据集不仅提供了丰富的语言对，还包含了详细的实体类型信息和多样的翻译示例，有助于深入研究跨文化机器翻译的挑战。此外，数据集的构建严格遵循学术规范，确保了数据的高质量和可靠性。

使用方法

使用XC-Translate数据集进行模型评估时，用户需提供模型预测结果，并使用官方提供的评估脚本进行性能评估。评估脚本支持多种参数设置，如实体类型过滤和详细输出选项，以满足不同研究需求。评估结果将输出m-ETA（手动实体翻译准确率）分数，该分数反映了模型在实体翻译任务中的表现。通过对比不同模型的预测结果，研究人员可以深入分析和优化其机器翻译系统。

背景与挑战

背景概述

在跨文化机器翻译领域，实体名称的翻译面临显著挑战，因其涉及文化差异和复杂的适应过程。为此，研究人员引入了XC-Translate数据集，这是首个大规模手动创建的基准，专注于包含文化细微差异实体名称的文本翻译。该数据集由Simone Conia等人在2024年提出，旨在评估机器翻译系统在处理此类文本时的性能。XC-Translate涵盖了从英语到阿拉伯语、德语、西班牙语、法语、意大利语、日语、韩语、泰语、土耳其语和中文的10种语言对，共包含约58,000条数据。这一数据集的推出，标志着跨文化机器翻译研究的重要进展，为相关领域的研究提供了宝贵的资源。

当前挑战

XC-Translate数据集的构建面临多重挑战。首先，实体名称的文化差异和适应过程增加了翻译的复杂性，要求模型不仅进行字面翻译，还需理解并适应文化背景。其次，数据集的创建需要大量的人工标注，确保翻译的准确性和文化适应性。此外，评估模型的性能时，需考虑实体名称的翻译准确性，这要求开发新的评估指标，如m-ETA（手动实体翻译准确性）。最后，尽管KG-MT模型在XC-Translate上表现优异，但仍需进一步研究以提升其在不同语言和文化背景下的泛化能力。

常用场景

经典使用场景

XC-Translate数据集的经典使用场景主要集中在评估机器翻译系统在处理包含文化相关实体名称的文本时的表现。该数据集通过提供多语言对齐的实体翻译，帮助研究人员和开发者测试和改进其模型在跨文化翻译中的准确性和适应性。通过对比不同模型在相同测试集上的表现，可以直观地评估各模型在处理文化差异和实体翻译时的优劣。

实际应用

在实际应用中，XC-Translate数据集可以用于开发和优化面向多语言用户的应用程序，如跨文化交流平台、全球市场分析工具和多语言内容管理系统。通过使用该数据集进行模型训练和评估，开发者可以确保其产品在不同文化背景下的用户中具有更高的翻译准确性和用户满意度。此外，该数据集还可用于政府和国际组织的跨文化沟通项目，提高信息传递的准确性和效率。

衍生相关工作

XC-Translate数据集的发布催生了一系列相关研究和工作，特别是在跨文化机器翻译和多语言知识图谱的结合领域。例如，基于该数据集的研究已经提出了多种改进的翻译模型，如KG-MT（Knowledge Graph-based Machine Translation），该模型通过整合多语言知识图谱的信息显著提升了翻译质量。此外，还有研究探讨了如何利用该数据集进行跨文化文本理解和生成，进一步扩展了其在自然语言处理领域的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集