hpprc/mqa-ja
收藏Hugging Face2024-04-07 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/hpprc/mqa-ja
下载链接
链接失效反馈官方服务:
资源简介:
这是一个针对日语的问答数据集,专注于query-passage对,已经过去重处理。数据集包含两个子集:collection和dataset,分别具有不同的特征和分割。数据集还经过了文本清洗和NFKC正規化等前处理步骤。dataset子集中的pos_ids和neg_ids与collection子集的索引相对应,便于数据访问。
这是一个针对日语的问答数据集,专注于query-passage对,已经过去重处理。数据集包含两个子集:collection和dataset,分别具有不同的特征和分割。数据集还经过了文本清洗和NFKC正規化等前处理步骤。dataset子集中的pos_ids和neg_ids与collection子集的索引相对应,便于数据访问。
提供机构:
hpprc
原始信息汇总
数据集概述
数据集配置
-
config_name: collection
- features:
- name: text
- dtype: string
- name: text
- splits:
- name: train
- num_bytes: 5404867793
- num_examples: 11852254
- download_size: 3269616864
- dataset_size: 5404867793
- name: train
- features:
-
config_name: dataset
- features:
- name: anc
- dtype: string
- name: pos_ids
- dtype: int64
- sequence: int64
- name: neg_ids
- dtype: null
- sequence: null
- name: anc
- splits:
- name: train
- num_bytes: 1725169456
- num_examples: 5826275
- download_size: 854583745
- dataset_size: 1725169456
- name: train
- features:
数据文件路径
-
config_name: collection
- data_files:
- split: train
- path: collection/train-*
- split: train
- data_files:
-
config_name: dataset
- data_files:
- split: train
- path: dataset/train-*
- split: train
- data_files:



