nthakur/miracl-raft-instruct-only-pos
收藏Hugging Face2024-04-04 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/nthakur/miracl-raft-instruct-only-pos
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言(如阿拉伯语、孟加拉语、英语等)的配置,每个配置的特征包括查询ID、文档ID、提示、正面ID、负面ID和文档内容。文档内容包含文档ID、文本和标题。数据集主要用于训练,每个配置的训练集大小和下载大小也有所不同。
该数据集包含多种语言(如阿拉伯语、孟加拉语、英语等)的配置,每个配置的特征包括查询ID、文档ID、提示、正面ID、负面ID和文档内容。文档内容包含文档ID、文本和标题。数据集主要用于训练,每个配置的训练集大小和下载大小也有所不同。
提供机构:
nthakur
原始信息汇总
数据集概述
数据集配置信息
阿拉伯语 (ar)
- 特征:
- query_id: 字符串
- doc_ids: 字符串序列
- prompt: 字符串
- positive_ids: 字符串序列
- negative_ids: 空值
- documents: 列表,包含
- docid: 字符串
- text: 字符串
- title: 字符串
- 分割:
- train:
- 字节数: 15117911
- 示例数: 3495
- train:
- 下载大小: 6867728
- 数据集大小: 15117911
孟加拉语 (bn)
- 特征: 同上
- 分割:
- train:
- 字节数: 14238382
- 示例数: 1631
- train:
- 下载大小: 4979386
- 数据集大小: 14238382
英语 (en)
- 特征: 同上
- 分割:
- train:
- 字节数: 12364231
- 示例数: 2863
- train:
- 下载大小: 6823687
- 数据集大小: 12364231
西班牙语 (es)
- 特征: 同上
- 分割:
- train:
- 字节数: 11779009
- 示例数: 2162
- train:
- 下载大小: 6763338
- 数据集大小: 11779009
波斯语 (fa)
- 特征: 同上
- 分割:
- train:
- 字节数: 8657314
- 示例数: 2107
- train:
- 下载大小: 3815521
- 数据集大小: 8657314
芬兰语 (fi)
- 特征: 同上
- 分割:
- train:
- 字节数: 7113709
- 示例数: 2897
- train:
- 下载大小: 3813397
- 数据集大小: 7113709
法语 (fr)
- 特征: 同上
- 分割:
- train:
- 字节数: 3628640
- 示例数: 1143
- train:
- 下载大小: 1982761
- 数据集大小: 3628640
印地语 (hi)
- 特征: 同上
- 分割:
- train:
- 字节数: 7990197
- 示例数: 1169
- train:
- 下载大小: 2910579
- 数据集大小: 7990197
印度尼西亚语 (id)
- 特征: 同上
- 分割:
- train:
- 字节数: 18844523
- 示例数: 4071
- train:
- 下载大小: 9921444
- 数据集大小: 18844523
日语 (ja)
- 特征: 同上
- 分割:
- train:
- 字节数: 12015421
- 示例数: 3477
- train:
- 下载大小: 6402050
- 数据集大小: 12015421
韩语 (ko)
- 特征: 同上
- 分割:
- train:
- 字节数: 2792636
- 示例数: 868
- train:
- 下载大小: 1415431
- 数据集大小: 2792636
俄语 (ru)
- 特征: 同上
- 分割:
- train:
- 字节数: 25844100
- 示例数: 4683
- train:
- 下载大小: 12364862
- 数据集大小: 25844100
斯瓦希里语 (sw)
- 特征: 同上
- 分割:
- train:
- 字节数: 3041463
- 示例数: 1901
- train:
- 下载大小: 1319544
- 数据集大小: 3041463
泰卢固语 (te)
- 特征: 同上
- 分割:
- train:
- 字节数: 16920764
- 示例数: 3452
- train:
- 下载大小: 5638307
- 数据集大小: 16920764
泰语 (th)
- 特征: 同上
- 分割:
- train:
- 字节数: 16606637
- 示例数: 2972
- train:
- 下载大小: 5959189
- 数据集大小: 16606637
中文 (zh)
- 特征: 同上
- 分割:
- train:
- 字节数: 4149442
- 示例数: 1312
- train:
- 下载大小: 2492922
- 数据集大小: 4149442



