IWSLT/ted_talks_iwslt
收藏数据集概述
数据集名称: Web Inventory of Transcribed & Translated (WIT) Ted Talks
数据集描述: WIT是一个包含原始Ted演讲及其翻译版本的数据集。翻译版本涵盖了超过109种语言,尽管分布不均。
语言支持: 数据集支持多种语言,包括但不限于af, am, ar, arq, art-x-bork, as, ast, az, be, bg, bi, bn, bo, bs, ca, ceb, cnh, cs, da, de, el, en, eo, es, et, eu, fa, fi, fil, fr, fr-ca, ga, gl, gu, ha, he, hi, hr, ht, hu, hup, hy, id, ig, inh, is, it, ja, ka, kk, km, kn, ko, ku, ky, la, lb, lo, lt, ltg, lv, mg, mk, ml, mn, mr, ms, mt, my, nb, ne, nl, nn, oc, pa, pl, ps, pt, pt-br, ro, ru, rup, sh, si, sk, sl, so, sq, sr, srp, sv, sw, szl, ta, te, tg, th, tl, tlh, tr, tt, ug, uk, ur, uz, vi, zh, zh-cn, zh-tw.
数据集结构:
- 数据实例: 每个实例包含原始语言和翻译语言的文本。
- 数据字段: 主要字段为translation,包含两种语言的文本。
- 数据分割: 数据可以根据年份(2014, 2015, 2016)进行分割。
数据集创建:
- 来源数据: 数据来源于Ted Conference网站。
- 注释过程: 翻译由志愿者贡献。
使用考虑:
- 社会影响: 该数据集对机器翻译研究社区非常有用,因为它提供了大量的领域内并行数据。
- 许可证: 数据集使用cc-by-nc-nd-4.0许可证。
贡献者:
- 数据集由Mauro Cettolo和Roldano Cattoni等人创建。
数据集详细信息
配置名称和特征:
- eu_ca_2014, eu_ca_2015, eu_ca_2016:
- 特征: translation,包含eu和ca语言。
- 分割: train,字节数和示例数不同。
- nl_en_2014, nl_en_2015, nl_en_2016:
- 特征: translation,包含nl和en语言。
- 分割: train,字节数和示例数不同。
- nl_hi_2014, nl_hi_2015, nl_hi_2016:
- 特征: translation,包含nl和hi语言。
- 分割: train,字节数和示例数不同。
- de_ja_2014, de_ja_2015, de_ja_2016:
- 特征: translation,包含de和ja语言。
- 分割: train,字节数和示例数不同。
- fr-ca_hi_2014, fr-ca_hi_2015, fr-ca_hi_2016:
- 特征: translation,包含fr-ca和hi语言。
- 分割: train,字节数和示例数不同。
数据集大小: 数据集大小在1K<n<10K和n<1K之间。
多语言性: 数据集支持翻译任务。
任务类别: 数据集主要用于翻译任务。
许可证: 数据集使用cc-by-nc-nd-4.0许可证。
数据集来源: 数据集为原始数据,未基于其他数据集。




