five

hpprc/mmarco-ja

收藏
Hugging Face2024-04-07 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/hpprc/mmarco-ja
下载链接
链接失效反馈
官方服务:
资源简介:
MMARCO-Ja数据集是基于[mmarco](https://huggingface.co/datasets/unicamp-dl/mmarco)数据集的query--passage对,以query为键去除重复项后得到的数据集。数据集已经过预处理,包括修正编码错误和NFKC正规化。dataset子集中的pos_ids和neg_ids中的ID与collection子集中的索引号对应,可以通过索引访问所需数据。

MMARCO-Ja数据集是基于[mmarco](https://huggingface.co/datasets/unicamp-dl/mmarco)数据集的query--passage对,以query为键去除重复项后得到的数据集。数据集已经过预处理,包括修正编码错误和NFKC正规化。dataset子集中的pos_ids和neg_ids中的ID与collection子集中的索引号对应,可以通过索引访问所需数据。
提供机构:
hpprc
原始信息汇总

数据集概述

基本信息

  • 语言: 日语 (ja)
  • 许可证: Apache-2.0
  • 名称: MMARCO-Ja

数据集配置

配置1: collection

  • 特征:
    • text: 数据类型为字符串
  • 分割:
    • train:
      • 字节数: 3818456967
      • 示例数: 8841823
  • 下载大小: 1864051764
  • 数据集大小: 3818456967

配置2: dataset

  • 特征:
    • anc: 数据类型为字符串
    • pos_ids: 数据类型为int64序列
    • neg_ids: 数据类型为int64序列
  • 分割:
    • train:
      • 字节数: 342315525
      • 示例数: 391060
  • 下载大小: 287510312
  • 数据集大小: 342315525

数据文件路径

  • collection:
    • train: collection/train-*
  • dataset:
    • train: dataset/train-*

数据集关系

  • dataset 子集中的 pos_idsneg_ids 中的ID对应于 collection 子集的索引号。可以通过 collection[pos_id] 访问所需数据。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作