SEACrowd/tico_19
收藏TICO-19 数据集概述
数据集名称
TICO-19 (Translation Initiative for COVID-19)
语言
数据集包含以下语言:
- ind (印度尼西亚语)
- ara (阿拉伯语)
- spa (西班牙语)
- fra (法语)
- hin (印地语)
- por (葡萄牙语)
- rus (俄语)
- zho (中文)
- eng (英语)
- khm (高棉语)
- zlm (马来语)
- mya (缅甸语)
- tgl (他加禄语)
- tam (泰米尔语)
支持的任务
机器翻译
数据集描述
TICO-19 数据集是从多种公开来源中抽取的 COVID-19 相关内容,涵盖不同的领域(如新闻、维基文章等)。该数据集包含 30 个文档(3071 个句子,69.7k 个单词),从英语翻译成 36 种语言,包括:
- 阿姆哈拉语
- 阿拉伯语(现代标准)
- 孟加拉语
- 中文(简体)
- 达里语
- 丁卡语
- 波斯语
- 法语(欧洲)
- 豪萨语
- 印地语
- 印度尼西亚语
- 卡努里语
- 高棉语(中部)
- 基尼亚卢旺达语
- 库尔德语(库尔曼吉)
- 库尔德语(索拉尼)
- 林加拉语
- 卢甘达语
- 马来语
- 马拉地语
- 缅甸语
- 尼泊尔语
- 尼日利亚富尔富尔德语
- 努尔语
- 奥罗莫语
- 普什图语
- 葡萄牙语(巴西)
- 俄语
- 索马里语
- 西班牙语(拉丁美洲)
- 斯瓦希里语
- 刚果斯瓦希里语
- 他加禄语
- 泰米尔语
- 提格里尼亚语
- 乌尔都语
- 祖鲁语
数据集版本
- 源版本: 1.0.0
- SEACrowd 版本: 2024.06.20
数据集许可证
CC0
引用
如果使用 TICO-19 数据集,请引用以下内容:
@inproceedings{anastasopoulos-etal-2020-tico, title = "{TICO}-19: the Translation Initiative for {CO}vid-19", author = {Anastasopoulos, Antonios and Cattelan, Alessandro and Dou, Zi-Yi and Federico, Marcello and Federmann, Christian and Genzel, Dmitriy and Guzm{a}n, Franscisco and Hu, Junjie and Hughes, Macduff and Koehn, Philipp and Lazar, Rosie and Lewis, Will and Neubig, Graham and Niu, Mengmeng and {"O}ktem, Alp and Paquin, Eric and Tang, Grace and Tur, Sylwia}, booktitle = "Proceedings of the 1st Workshop on {NLP} for {COVID}-19 (Part 2) at {EMNLP} 2020", month = dec, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2020.nlpcovid19-2.5", doi = "10.18653/v1/2020.nlpcovid19-2.5", }




