ellamind/wikipedia-2023-11-reranking-multilingual
收藏Hugging Face2024-05-23 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ellamind/wikipedia-2023-11-reranking-multilingual
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于Cohere的wikipedia-2023-11数据集,而该数据集又来源于`wikimedia/wikipedia`。数据集包含多种语言的配置,每种配置都包含查询、正面和负面序列的特征,并且每种配置都有一个测试分割。数据集采用Creative Commons CC BY-SA 3.0许可证。
提供机构:
ellamind
原始信息汇总
数据集概述
该数据集包含多个语言版本的配置,每个配置包含以下信息:
配置列表
-
bg
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 9297033
- 样本数: 1500
- test:
- 下载大小: 4619854
- 数据集大小: 9297033
- 特征:
-
bn
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 14215770
- 样本数: 1500
- test:
- 下载大小: 5517368
- 数据集大小: 14215770
- 特征:
-
cs
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 5717641
- 样本数: 1500
- test:
- 下载大小: 3936248
- 数据集大小: 5717641
- 特征:
-
da
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 4923143
- 样本数: 1500
- test:
- 下载大小: 3175249
- 数据集大小: 4923143
- 特征:
-
de
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 5653018
- 样本数: 1500
- test:
- 下载大小: 3616392
- 数据集大小: 5653018
- 特征:
-
en
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 6301024
- 样本数: 1500
- test:
- 下载大小: 3980539
- 数据集大小: 6301024
- 特征:
-
fa
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 8635684
- 样本数: 1500
- test:
- 下载大小: 4224987
- 数据集大小: 8635684
- 特征:
-
fi
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 5479600
- 样本数: 1500
- test:
- 下载大小: 3497868
- 数据集大小: 5479600
- 特征:
-
hi
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 14421622
- 样本数: 1500
- test:
- 下载大小: 5630985
- 数据集大小: 14421622
- 特征:
-
it
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 5532370
- 样本数: 1500
- test:
- 下载大小: 3584787
- 数据集大小: 5532370
- 特征:
-
nl
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 5253649
- 样本数: 1500
- test:
- 下载大小: 3265720
- 数据集大小: 5253649
- 特征:
-
no
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 5214714
- 样本数: 1500
- test:
- 下载大小: 3366708
- 数据集大小: 5214714
- 特征:
-
pt
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 5706550
- 样本数: 1500
- test:
- 下载大小: 3659625
- 数据集大小: 5706550
- 特征:
-
ro
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 5111293
- 样本数: 1500
- test:
- 下载大小: 3323481
- 数据集大小: 5111293
- 特征:
-
sr
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 9030866
- 样本数: 1500
- test:
- 下载大小: 4768609
- 数据集大小: 9030866
- 特征:
-
sv
- 特征:
- query: string
- positive: sequence of string
- negative: sequence of string
- 分割:
- test:
- 字节数: 5344205
- 样本数: 1500
- test:
- 下载大小: 3393786
- 数据集大小: 5344205
- 特征:
数据文件路径
- bg: bg/test-*
- bn: bn/test-*
- cs: cs/test-*
- da: da/test-*
- de: de/test-*
- en: en/test-*
- fa: fa/test-*
- fi: fi/test-*
- hi: hi/test-*
- it: it/test-*
- nl: nl/test-*
- no: no/test-*
- pt: pt/test-*
- ro: ro/test-*
- sr: sr/test-*
- sv: sv/test-*



