CLIRMatrix
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/CLIRMatrix
下载链接
链接失效反馈官方服务:
资源简介:
CLIRMatrix 是用于跨语言信息检索的大量双语和多语言数据集。它包括: BI-139:一种语言的查询双语数据集与另一种语言的相关文档匹配,用于 139x138=19,182 个语言对,MULTI-8,一个查询和文档的多语言数据集,以 8 种不同语言联合对齐。总共挖掘了 4900 万个唯一查询和 340 亿个(查询、文档、标签)三元组,使 CLIRMatrix 成为迄今为止最大和最全面的 CLIR 数据集。
提供机构:
OpenDataLab
创建时间:
2022-05-30



