hpprc/mmarco-ja
收藏Hugging Face2024-04-07 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/hpprc/mmarco-ja
下载链接
链接失效反馈官方服务:
资源简介:
MMARCO-Ja数据集是基于[mmarco](https://huggingface.co/datasets/unicamp-dl/mmarco)数据集的query--passage对,以query为键去除重复项后得到的数据集。数据集已经过预处理,包括修正编码错误和NFKC正规化。dataset子集中的pos_ids和neg_ids中的ID与collection子集中的索引号对应,可以通过索引访问所需数据。
MMARCO-Ja数据集是基于[mmarco](https://huggingface.co/datasets/unicamp-dl/mmarco)数据集的query--passage对,以query为键去除重复项后得到的数据集。数据集已经过预处理,包括修正编码错误和NFKC正规化。dataset子集中的pos_ids和neg_ids中的ID与collection子集中的索引号对应,可以通过索引访问所需数据。
提供机构:
hpprc
原始信息汇总
数据集概述
基本信息
- 语言: 日语 (ja)
- 许可证: Apache-2.0
- 名称: MMARCO-Ja
数据集配置
配置1: collection
- 特征:
text: 数据类型为字符串
- 分割:
train:- 字节数: 3818456967
- 示例数: 8841823
- 下载大小: 1864051764
- 数据集大小: 3818456967
配置2: dataset
- 特征:
anc: 数据类型为字符串pos_ids: 数据类型为int64序列neg_ids: 数据类型为int64序列
- 分割:
train:- 字节数: 342315525
- 示例数: 391060
- 下载大小: 287510312
- 数据集大小: 342315525
数据文件路径
- collection:
train:collection/train-*
- dataset:
train:dataset/train-*
数据集关系
dataset子集中的pos_ids和neg_ids中的ID对应于collection子集的索引号。可以通过collection[pos_id]访问所需数据。



