five

PanLex-BLI

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/cambridgeltl/panlex-bli
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了覆盖15种低资源语言的BLI词典,并涵盖了210个BLI语言方向。它特别关注于无监督和1K BLI设置,涉及的语言包括保加利亚语、加泰罗尼亚语和匈牙利语等。该数据集的规模为2,000个测试对,其任务是进行双语词典诱导。

This dataset provides BLI (Bilingual Lexicon Induction) dictionaries covering 15 low-resource languages, with 210 BLI language directions included. It specifically focuses on unsupervised and 1K-shot BLI settings, involving languages such as Bulgarian, Catalan, Hungarian, and others. This dataset contains 2,000 test pairs and is intended for the task of bilingual lexicon induction.
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
PanLex-BLI数据集是一个包含210种语言对的双语词典集合,覆盖15种语言,用于双语词典归纳(BLI)任务。该数据集从PanLex翻译数据库中提取,提供不同大小的训练和测试词典(如5000、2000、1000、500对),并作为银标准资源,适用于跨语言嵌入研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作