five

SEACrowd/tico_19

收藏
Hugging Face2024-06-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/tico_19
下载链接
链接失效反馈
官方服务:
资源简介:
TICO-19(COVID-19翻译倡议)是从多个公共来源采样的,包含与COVID-19相关的内容,涵盖了新闻、维基文章等不同领域。TICO-19包括30个文档(3071个句子,69.7k个单词),这些文档从英语翻译成36种语言:阿姆哈拉语、阿拉伯语(现代标准)、孟加拉语、中文(简体)、达里语、丁卡语、波斯语、法语(欧洲)、豪萨语、印地语、印度尼西亚语、卡努里语、高棉语(中部)、基尼亚卢旺达语、库尔德库尔曼吉语、库尔德索拉尼语、林加拉语、卢干达语、马来语、马拉地语、缅甸语、尼泊尔语、尼日利亚富拉语、努尔语、奥罗莫语、普什图语、葡萄牙语(巴西)、俄语、索马里语、西班牙语(拉丁美洲)、斯瓦希里语、刚果斯瓦希里语、他加禄语、泰米尔语、提格里尼亚语、乌尔都语、祖鲁语。

TICO-19 (COVID-19 Translation Initiative) is sampled from multiple public sources, containing COVID-19-related content spanning diverse domains such as news articles, Wikipedia entries, and other fields. TICO-19 comprises 30 documents (3,071 sentences, 69.7k words), which have been translated from English into 36 languages: Amharic, Arabic (Modern Standard), Bengali, Chinese (Simplified), Dari, Dinka, Persian, French (European), Hausa, Hindi, Indonesian, Kanuri, Khmer (Central), Kinyarwanda, Kurdish (Kurmanji), Kurdish (Sorani), Lingala, Luganda, Malay, Marathi, Burmese, Nepali, Nigerian Fulfulde, Nuer, Oromo, Pashto, Portuguese (Brazilian), Russian, Somali, Spanish (Latin American), Swahili, Swahili (Congo), Tagalog, Tamil, Tigrinya, Urdu, Zulu.
提供机构:
SEACrowd
原始信息汇总

TICO-19 数据集概述

数据集名称

TICO-19 (Translation Initiative for COVID-19)

语言

数据集包含以下语言:

  • ind (印度尼西亚语)
  • ara (阿拉伯语)
  • spa (西班牙语)
  • fra (法语)
  • hin (印地语)
  • por (葡萄牙语)
  • rus (俄语)
  • zho (中文)
  • eng (英语)
  • khm (高棉语)
  • zlm (马来语)
  • mya (缅甸语)
  • tgl (他加禄语)
  • tam (泰米尔语)

支持的任务

机器翻译

数据集描述

TICO-19 数据集是从多种公开来源中抽取的 COVID-19 相关内容,涵盖不同的领域(如新闻、维基文章等)。该数据集包含 30 个文档(3071 个句子,69.7k 个单词),从英语翻译成 36 种语言,包括:

  • 阿姆哈拉语
  • 阿拉伯语(现代标准)
  • 孟加拉语
  • 中文(简体)
  • 达里语
  • 丁卡语
  • 波斯语
  • 法语(欧洲)
  • 豪萨语
  • 印地语
  • 印度尼西亚语
  • 卡努里语
  • 高棉语(中部)
  • 基尼亚卢旺达语
  • 库尔德语(库尔曼吉)
  • 库尔德语(索拉尼)
  • 林加拉语
  • 卢甘达语
  • 马来语
  • 马拉地语
  • 缅甸语
  • 尼泊尔语
  • 尼日利亚富尔富尔德语
  • 努尔语
  • 奥罗莫语
  • 普什图语
  • 葡萄牙语(巴西)
  • 俄语
  • 索马里语
  • 西班牙语(拉丁美洲)
  • 斯瓦希里语
  • 刚果斯瓦希里语
  • 他加禄语
  • 泰米尔语
  • 提格里尼亚语
  • 乌尔都语
  • 祖鲁语

数据集版本

  • 源版本: 1.0.0
  • SEACrowd 版本: 2024.06.20

数据集许可证

CC0

引用

如果使用 TICO-19 数据集,请引用以下内容:

@inproceedings{anastasopoulos-etal-2020-tico, title = "{TICO}-19: the Translation Initiative for {CO}vid-19", author = {Anastasopoulos, Antonios and Cattelan, Alessandro and Dou, Zi-Yi and Federico, Marcello and Federmann, Christian and Genzel, Dmitriy and Guzm{a}n, Franscisco and Hu, Junjie and Hughes, Macduff and Koehn, Philipp and Lazar, Rosie and Lewis, Will and Neubig, Graham and Niu, Mengmeng and {"O}ktem, Alp and Paquin, Eric and Tang, Grace and Tur, Sylwia}, booktitle = "Proceedings of the 1st Workshop on {NLP} for {COVID}-19 (Part 2) at {EMNLP} 2020", month = dec, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2020.nlpcovid19-2.5", doi = "10.18653/v1/2020.nlpcovid19-2.5", }

搜集汇总
数据集介绍
main_image_url
构建方式
在机器翻译领域,构建高质量的多语言平行语料库对于提升跨语言信息传递的准确性至关重要。TICO-19数据集从包含COVID-19相关内容的多种公开来源中抽样,涵盖新闻、维基百科文章等多个领域。该数据集选取了30份文档,共计3071个句子和约6.97万个单词,并由专业译者从英语翻译成36种语言,确保了翻译的准确性和领域相关性。
使用方法
研究人员可通过`datasets`库或专门的`seacrowd`库便捷地加载和使用该数据集。使用`datasets`库时,调用`load_dataset`函数并指定数据集名称即可获取全部数据。若需更精细的配置或访问特定子集,可利用`seacrowd`库提供的`available_config_names`函数查看所有可用配置,并通过`load_dataset_by_config_name`方法加载指定配置的数据。这为不同研究场景下的数据调用提供了灵活性。
背景与挑战
背景概述
在2020年全球新冠疫情爆发期间,跨语言信息传播的紧迫性催生了TICO-19数据集的诞生。该数据集由Antonios Anastasopoulos等研究人员主导,汇集了来自新闻、维基百科等多源领域的COVID-19相关内容,旨在构建一个涵盖36种语言的机器翻译资源。其核心研究问题聚焦于应对突发公共卫生事件时,如何通过高质量的多语言平行语料促进关键信息的无障碍流通,从而为自然语言处理领域,特别是低资源语言机器翻译研究,提供了重要的数据支撑。
当前挑战
TICO-19数据集致力于解决突发公共卫生事件下多语言机器翻译的挑战,其核心在于应对低资源语言在专业领域(如医学术语)中翻译质量不稳定的问题,同时需确保跨语言信息在时效性与准确性上的平衡。在构建过程中,研究人员面临语料采集与对齐的复杂性,尤其是对于Dinka、Nuer等极低资源语言,其语法结构和词汇稀缺性增加了平行句对标注的难度,且需在有限时间内整合多样化的文本领域以维持数据的代表性与一致性。
常用场景
经典使用场景
在机器翻译领域,TICO-19数据集以其多语言覆盖和特定主题内容,成为评估跨语言信息传递能力的经典资源。该数据集从新闻、维基文章等公开来源采样,涵盖COVID-19相关文本,将英语原文翻译成36种语言,包括东南亚及非洲等资源稀缺语种。研究者常利用其平行语料,测试神经机器翻译模型在专业领域术语和跨文化语境下的表现,尤其在低资源语言对上的翻译质量评估中占据核心地位。
解决学术问题
TICO-19数据集针对全球公共卫生危机中的语言障碍问题,为自然语言处理研究提供了关键解决方案。它有效缓解了低资源语言在机器翻译任务中数据匮乏的困境,支持跨语言信息公平获取的学术探索。通过构建高质量的多语言平行语料,该数据集助力研究者分析翻译模型在特定领域(如医学传播)的适应性,推动了多语言NLP技术在紧急情境下的鲁棒性与泛化能力研究。
实际应用
在实际应用中,TICO-19数据集为全球卫生组织和多语言信息平台提供了技术支撑。基于该数据集训练的翻译系统,能够协助将COVID-19相关的公共卫生指南、科研报告和政策文件快速转化为多种语言,促进疫情信息在非英语社区的准确传播。这种能力尤其适用于东南亚、非洲等多元语言地区,帮助打破信息壁垒,提升危机应对中的沟通效率与包容性。
数据集最近研究
最新研究方向
在公共卫生危机信息传播领域,TICO-19数据集作为多语言机器翻译的关键资源,正推动着前沿研究向低资源语言和领域自适应方向深化。该数据集涵盖36种语言,特别是包含东南亚及非洲等地区的低资源语种,为构建包容性翻译模型提供了珍贵语料。近期研究聚焦于利用该数据集提升模型在医学和新闻等专业领域的术语翻译准确性,同时结合COVID-19疫情等全球热点事件,探索跨语言信息实时传递的鲁棒性。这些工作不仅增强了机器翻译技术在紧急公共卫生响应中的实用性,也为多语言自然语言处理技术的公平性与可及性奠定了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作