five

WikiCLIR

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/WikiCLIR
下载链接
链接失效反馈
官方服务:
资源简介:
WikiCLIR 是用于跨语言信息检索(CLIR)的大规模(德语-英语)检索数据集。它总共包含 245,294 个德语单句查询,其中 3,200,393 个自动提取的相关性判断是针对 1,226,741 篇英语维基百科文章作为文档的。查询是格式良好的自然语言句子,允许对(基于翻译的)排名模型进行大规模训练。
提供机构:
OpenDataLab
创建时间:
2022-05-09
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
WikiCLIR是一个用于德语-英语跨语言信息检索的大规模数据集,包含约24.5万条德语单句查询和320万条相关性判断。查询为自然语言句子,基于超过122万篇英语维基百科文章构建,支持排名模型训练。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作