XC-Translate
收藏XC-Translate 数据集概述
数据集简介
XC-Translate 是一个用于评估机器翻译系统在包含实体名称的文本上的性能的基准数据集。该数据集专注于可能具有文化差异的实体名称的翻译,涵盖从英语到阿拉伯语、德语、西班牙语、法语、意大利语、日语、韩语、泰语、土耳其语和中文的10种语言对。
语言对
XC-Translate 包含以下语言对:
entoar- 英语到阿拉伯语entode- 英语到德语entoes- 英语到西班牙语entofr- 英语到法语entoit- 英语到意大利语entoja- 英语到日语entoko- 英语到韩语entoth- 英语到泰语entotr- 英语到土耳其语entozh- 英语到中文
数据统计
每个语言对包含约4,000到6,000行数据,总计约58,000行数据。具体统计如下:
| 语言对 | 行数 |
|---|---|
| en-ar | 5,339 |
| en-de | 6,677 |
| en-es | 6,149 |
| en-fr | 6,264 |
| en-it | 5,901 |
| en-ja | 5,904 |
| en-ko | 5,900 |
| en-th | 4,230 |
| en-tr | 5,280 |
| en-zh | 5,977 |
| 总计 | 57,621 |
数据组织
数据按以下方式组织:
data/ └── xct ├── predictions │ ├── to_ar_AE │ ├── to_de_DE │ ├── to_es_ES │ ├── to_fr_FR │ ├── to_it_IT │ │ ├── it_IT.gpt-3.5.json │ │ ├── it_IT.gpt-3.json │ │ ├── it_IT.gpt-4.json │ │ ├── it_IT.kgmt-m2m.json │ │ ├── it_IT.kgmt-mbart.json │ │ ├── it_IT.kgmt-nllb.json │ │ ├── it_IT.m2m.json │ │ ├── it_IT.mbart.json │ │ └── it_IT.nllb.json │ ├── to_ja_JP │ ├── to_ko_KR │ ├── to_th_TH │ ├── to_tr_TR │ └── to_zh_TW ... └── references └── all ├── ar_AE.jsonl ├── de_DE.jsonl ├── es_ES.jsonl ├── fr_FR.jsonl ├── it_IT.jsonl ├── ja_JP.jsonl ├── ko_KR.jsonl ├── th_TH.jsonl ├── tr_TR.jsonl └── zh_TW.jsonl
data/xct/all/references/包含每个语言对的人工翻译。data/xct/predictions/包含每个语言对和模型的预测结果。
数据格式
每行数据包含以下字段: json { "id": "Q2461698_0", "wikidata_id": "Q2461698", "entity_types": [ "Fictional entity" ], "source": "Who are the main antagonistic forces in the World of Ice and Fire?", "targets": [ { "translation": "Chi sono le principali forze antagoniste nel mondo delle Cronache del ghiaccio e del fuoco?", "mention": "mondo delle Cronache del ghiaccio e del fuoco" } ], "source_locale": "en", "target_locale": "it" }
id:行的唯一标识符。wikidata_id:Wikidata中的实体ID。entity_types:实体类型列表。source:源文本(英语)。targets:目标语言的翻译列表。source_locale:源语言。target_locale:目标语言。
示例
-
Ring a Ring o Roses 翻译为 Girotondo 意大利语: json { "id": "Q746666_0", "wikidata_id": "Q746666", "entity_types": [ "Musical work" ], "source": "Can you sing the chorus of the folk song Ring a Ring o Roses?", "targets": [ { "translation": "Puoi cantare il ritornello della canzone popolare Girotondo?", "mention": "Girotondo" }, { "translation": "Sai cantare il ritornello del girotondo, la canzone popolare?", "mention": "girotondo" } ], "source_locale": "en", "target_locale": "it" }
-
Mary of Burgundy 翻译为 Maria di Borgogna 和 Maximilian I 翻译为 Massimiliano I 意大利语: json { "id": "Q157073_0", "wikidata_id": "Q157073", "entity_types": [ "Person" ], "source": "How long was Mary of Burgundy married to Emperor Maximilian I?", "targets": [ { "translation": "Per quanto tempo Maria di Borgogna è stata sposata con limperatore Massimiliano I?", "mention": "Maria di Borgogna" }, { "translation": "Per quanto tempo Maria di Borgogna è stata sposata con limperatore Massimiliano I", "mention": "Maria di Borgogna" } ], "source_locale": "en", "target_locale": "it" }
-
Little Women 翻译为 Mujercitas 西班牙语: json { "id": "Q850522_0", "wikidata_id": "Q850522", "entity_types": [ "Movie" ], "source": "Who are the main characters in the movie Little Women?", "targets": [ { "translation": "¿Quiénes son los personajes principales de la película Mujercitas?", "mention": "Mujercitas" } ], "source_locale": "en", "target_locale": "es" }
-
A Room of Ones Own 翻译为 Una habitación propia 西班牙语: json { "id": "Q1204366_1", "wikidata_id": "Q1204366", "entity_types": [ "Book" ], "source": "Who is the author of the book A Room of Ones Own?", "targets": [ { "translation": "¿Quién es el autor del libro Una habitación propia?", "mention": "Una habitación propia" }, { "translation": "¿Quién es el autor del libro Una habitacion propia?", "mention": "Una habitacion propia" } ], "source_locale": "en", "target_locale": "es" }




