five

CORI

收藏
arXiv2024-04-19 更新2024-06-21 收录
下载链接:
https://github.com/nhhoang96/benchmark_cjkv
下载链接
链接失效反馈
官方服务:
资源简介:
CORI数据集是一个专为汉语、日语、韩语和越南语(CJKV)设计的基准数据集,旨在深入研究这些语言间的接触。该数据集不仅覆盖了多种自然语言理解(NLU)任务,还捕捉了这些语言在词汇和音韵层面的共享特性。通过对比学习目标,CORI数据集整合了罗马化转录,以增强跨语言表示,从而在零射击跨语言转移中实现更有效的性能。此外,CORI数据集还解决了现有XTREME基准在语言可用性、预分段和正字法接触限制方面的挑战,为CJKV语言的深入研究提供了全面的支持。

CORI dataset is a benchmark dataset specifically designed for Chinese, Japanese, Korean and Vietnamese (CJKV) languages, aiming to conduct in-depth research on the language contact among these languages. It covers multiple natural language understanding (NLU) tasks, while capturing the shared lexical and phonological characteristics of these languages. By adopting contrastive learning objectives, the CORI dataset integrates romanized transcriptions to enhance cross-lingual representations, thereby achieving more effective performance in zero-shot cross-lingual transfer. Furthermore, the CORI dataset addresses the challenges faced by the existing XTREME benchmark in terms of language availability, pre-segmentation and orthographic contact restrictions, providing comprehensive support for in-depth research on CJKV languages.
提供机构:
伊利诺伊大学芝加哥分校计算机科学系
创建时间:
2024-04-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作