PanLex-BLI
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/cambridgeltl/panlex-bli
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提供了覆盖15种低资源语言的BLI词典,并涵盖了210个BLI语言方向。它特别关注于无监督和1K BLI设置,涉及的语言包括保加利亚语、加泰罗尼亚语和匈牙利语等。该数据集的规模为2,000个测试对,其任务是进行双语词典诱导。
搜集汇总
数据集介绍

背景与挑战
背景概述
PanLex-BLI数据集是一个包含210种语言对的双语词典集合,覆盖15种语言,用于双语词典归纳(BLI)任务。该数据集从PanLex翻译数据库中提取,提供不同大小的训练和测试词典(如5000、2000、1000、500对),并作为银标准资源,适用于跨语言嵌入研究。
以上内容由遇见数据集搜集并总结生成



