five

ellamind/wikipedia-2023-11-reranking-multilingual

收藏
Hugging Face2024-05-23 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ellamind/wikipedia-2023-11-reranking-multilingual
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来源于Cohere的wikipedia-2023-11数据集,而该数据集又来源于`wikimedia/wikipedia`。数据集包含多种语言的配置,每种配置都包含查询、正面和负面序列的特征,并且每种配置都有一个测试分割。数据集采用Creative Commons CC BY-SA 3.0许可证。
提供机构:
ellamind
原始信息汇总

数据集概述

该数据集包含多个语言版本的配置,每个配置包含以下信息:

配置列表

  • bg

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 9297033
        • 样本数: 1500
    • 下载大小: 4619854
    • 数据集大小: 9297033
  • bn

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 14215770
        • 样本数: 1500
    • 下载大小: 5517368
    • 数据集大小: 14215770
  • cs

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 5717641
        • 样本数: 1500
    • 下载大小: 3936248
    • 数据集大小: 5717641
  • da

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 4923143
        • 样本数: 1500
    • 下载大小: 3175249
    • 数据集大小: 4923143
  • de

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 5653018
        • 样本数: 1500
    • 下载大小: 3616392
    • 数据集大小: 5653018
  • en

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 6301024
        • 样本数: 1500
    • 下载大小: 3980539
    • 数据集大小: 6301024
  • fa

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 8635684
        • 样本数: 1500
    • 下载大小: 4224987
    • 数据集大小: 8635684
  • fi

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 5479600
        • 样本数: 1500
    • 下载大小: 3497868
    • 数据集大小: 5479600
  • hi

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 14421622
        • 样本数: 1500
    • 下载大小: 5630985
    • 数据集大小: 14421622
  • it

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 5532370
        • 样本数: 1500
    • 下载大小: 3584787
    • 数据集大小: 5532370
  • nl

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 5253649
        • 样本数: 1500
    • 下载大小: 3265720
    • 数据集大小: 5253649
  • no

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 5214714
        • 样本数: 1500
    • 下载大小: 3366708
    • 数据集大小: 5214714
  • pt

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 5706550
        • 样本数: 1500
    • 下载大小: 3659625
    • 数据集大小: 5706550
  • ro

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 5111293
        • 样本数: 1500
    • 下载大小: 3323481
    • 数据集大小: 5111293
  • sr

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 9030866
        • 样本数: 1500
    • 下载大小: 4768609
    • 数据集大小: 9030866
  • sv

    • 特征:
      • query: string
      • positive: sequence of string
      • negative: sequence of string
    • 分割:
      • test:
        • 字节数: 5344205
        • 样本数: 1500
    • 下载大小: 3393786
    • 数据集大小: 5344205

数据文件路径

  • bg: bg/test-*
  • bn: bn/test-*
  • cs: cs/test-*
  • da: da/test-*
  • de: de/test-*
  • en: en/test-*
  • fa: fa/test-*
  • fi: fi/test-*
  • hi: hi/test-*
  • it: it/test-*
  • nl: nl/test-*
  • no: no/test-*
  • pt: pt/test-*
  • ro: ro/test-*
  • sr: sr/test-*
  • sv: sv/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作