five

Samoed/WikipediaRetrievalMultilingual

收藏
Hugging Face2024-11-27 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/Samoed/WikipediaRetrievalMultilingual
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个语言的语料库、查询和相关度评分,涵盖了保加利亚语(bg)、孟加拉语(bn)、捷克语(cs)、丹麦语(da)、德语(de)、英语(en)、波斯语(fa)、芬兰语(fi)、印地语(hi)、意大利语(it)、荷兰语(nl)、挪威语(no)、葡萄牙语(pt)、罗马尼亚语(ro)、塞尔维亚语(sr)和瑞典语(sv)。每个语言的配置包含语料库、查询和相关度评分,语料库包含文本和标题,查询包含查询ID和查询文本,相关度评分包含查询ID、语料库ID和评分。数据集主要用于信息检索任务。

This dataset contains corpora, queries, and relevance scores for multiple languages, including Bulgarian (bg), Bengali (bn), Czech (cs), Danish (da), German (de), English (en), Persian (fa), Finnish (fi), Hindi (hi), Italian (it), Dutch (nl), Norwegian (no), Portuguese (pt), Romanian (ro), Serbian (sr), and Swedish (sv). Each language configuration includes a corpus, queries, and relevance scores. The corpus contains text and titles, the queries contain query IDs and query text, and the relevance scores contain query IDs, corpus IDs, and scores. The dataset is primarily used for information retrieval tasks.
提供机构:
Samoed
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作