five

hpprc/mqa-ja

收藏
Hugging Face2024-04-07 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/hpprc/mqa-ja
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个针对日语的问答数据集,专注于query-passage对,已经过去重处理。数据集包含两个子集:collection和dataset,分别具有不同的特征和分割。数据集还经过了文本清洗和NFKC正規化等前处理步骤。dataset子集中的pos_ids和neg_ids与collection子集的索引相对应,便于数据访问。

这是一个针对日语的问答数据集,专注于query-passage对,已经过去重处理。数据集包含两个子集:collection和dataset,分别具有不同的特征和分割。数据集还经过了文本清洗和NFKC正規化等前处理步骤。dataset子集中的pos_ids和neg_ids与collection子集的索引相对应,便于数据访问。
提供机构:
hpprc
原始信息汇总

数据集概述

数据集配置

  • config_name: collection

    • features:
      • name: text
        • dtype: string
    • splits:
      • name: train
        • num_bytes: 5404867793
        • num_examples: 11852254
      • download_size: 3269616864
      • dataset_size: 5404867793
  • config_name: dataset

    • features:
      • name: anc
        • dtype: string
      • name: pos_ids
        • dtype: int64
        • sequence: int64
      • name: neg_ids
        • dtype: null
        • sequence: null
    • splits:
      • name: train
        • num_bytes: 1725169456
        • num_examples: 5826275
      • download_size: 854583745
      • dataset_size: 1725169456

数据文件路径

  • config_name: collection

    • data_files:
      • split: train
        • path: collection/train-*
  • config_name: dataset

    • data_files:
      • split: train
        • path: dataset/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作