parsak/msmarco-tr
收藏Hugging Face2024-05-08 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/parsak/msmarco-tr
下载链接
链接失效反馈官方服务:
资源简介:
MS Marco土耳其语数据集,主要用于文本检索和问答任务。数据集包含四个主要部分:passages、qrels、queries和triples,分别用于不同的数据处理和分析需求。数据集支持土耳其语,适用于多种NLP任务,如文本检索、问答和段落排名。
MS Marco土耳其语数据集,主要用于文本检索和问答任务。数据集包含四个主要部分:passages、qrels、queries和triples,分别用于不同的数据处理和分析需求。数据集支持土耳其语,适用于多种NLP任务,如文本检索、问答和段落排名。
提供机构:
parsak
原始信息汇总
数据集概述
基本信息
- 名称: MS Marco - Turkish
- 语言: 土耳其语 (tr)
- 许可证: Apache-2.0
- 大小: 100K<n<1M
- 任务类别:
- 文本检索
- 问答
数据集配置
-
配置名称: passages
- 特征:
- pid: int64
- text: string
- 分割:
- train
- 字节数: 249167997
- 示例数: 718217
- train
- 下载大小: 154088206
- 数据集大小: 249167997
- 特征:
-
配置名称: qrels
- 特征:
- qid: int64
- q0: int64
- pid: int64
- rank: int64
- 分割:
- train
- 字节数: 17048352
- 示例数: 532761
- train
- 下载大小: 6727024
- 数据集大小: 17048352
- 特征:
-
配置名称: queries
- 特征:
- qid: int64
- text: string
- 分割:
- train
- 字节数: 23776232
- 示例数: 501428
- dev
- 字节数: 5121647
- 示例数: 101605
- train
- 下载大小: 21217177
- 数据集大小: 28897879
- 特征:
-
配置名称: triples
- 特征:
- qid: int64
- pid_pos: int64
- pid_neg: int64
- 分割:
- train
- 字节数: 24000000
- 示例数: 1000000
- train
- 下载大小: 15887012
- 数据集大小: 24000000
- 特征:
数据文件配置
-
配置名称: passages
- 数据文件:
- train: data/collection/train-*
- 默认: true
- 数据文件:
-
配置名称: qrels
- 数据文件:
- train: data/qrels/train-*
- 数据文件:
-
配置名称: queries
- 数据文件:
- train: data/queries/train-*
- dev: data/queries/dev-*
- 数据文件:
-
配置名称: triples
- 数据文件:
- train: data/triples/train-*
- 数据文件:
标签
- msmarco
- 文本检索
- 问答
- 文章排名
- colbert



