five

PanLex-BLI

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/cambridgeltl/panlex-bli
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了覆盖15种低资源语言的BLI词典,并涵盖了210个BLI语言方向。它特别关注于无监督和1K BLI设置,涉及的语言包括保加利亚语、加泰罗尼亚语和匈牙利语等。该数据集的规模为2,000个测试对,其任务是进行双语词典诱导。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
PanLex-BLI数据集是一个包含210种语言对的双语词典集合,覆盖15种语言,用于双语词典归纳(BLI)任务。该数据集从PanLex翻译数据库中提取,提供不同大小的训练和测试词典(如5000、2000、1000、500对),并作为银标准资源,适用于跨语言嵌入研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作