BeastyZ/cmteb_retrieval
收藏Hugging Face2024-06-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/BeastyZ/cmteb_retrieval
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,如cmedqa2、dureader、mmarco_merged等,每个配置都包含查询、正面、负面和答案等特征。所有配置都只有训练集分割,适用于自然语言处理任务,如问答系统和信息检索。数据集的语言为中文。
This dataset includes multiple configurations such as cmedqa2, dureader, mmarco_merged, etc. Each configuration contains features like query, positive, negative, and answers. All configurations have only a training split and are suitable for natural language processing tasks such as question answering systems and information retrieval. The language of the dataset is Chinese.
提供机构:
BeastyZ
原始信息汇总
数据集概述
数据集配置信息
cmedqa2
- 特征:
- query: 字符串类型
- positive: 字符串序列
- negative: 字符串序列
- answers: 空序列
- 分割:
- train: 100000个样本,总大小1587455490字节
- 下载大小: 1027804069字节
- 数据集大小: 1587455490字节
dureader
- 特征:
- query: 字符串类型
- positive: 字符串序列
- negative: 字符串序列
- answers: 空序列
- 分割:
- train: 86395个样本,总大小7895977861字节
- 下载大小: 5019668526字节
- 数据集大小: 7895977861字节
mmarco_merged
- 特征:
- query: 字符串类型
- positive: 字符串序列
- negative: 字符串序列
- answers: 空序列
- 分割:
- train: 388596个样本,总大小24887177062字节
- 下载大小: 7142801140字节
- 数据集大小: 24887177062字节
multi-cpr-ecom
- 特征:
- query: 字符串类型
- positive: 字符串序列
- negative: 字符串序列
- answers: 空序列
- 分割:
- train: 100000个样本,总大小1778251126字节
- 下载大小: 1049289853字节
- 数据集大小: 1778251126字节
multi-cpr-medical
- 特征:
- query: 字符串类型
- positive: 字符串序列
- negative: 字符串序列
- answers: 空序列
- 分割:
- train: 99999个样本,总大小6924807931字节
- 下载大小: 3710282294字节
- 数据集大小: 6924807931字节
multi-cpr-video
- 特征:
- query: 字符串类型
- positive: 字符串序列
- negative: 字符串序列
- answers: 空序列
- 分割:
- train: 100000个样本,总大小1803174179字节
- 下载大小: 1290090817字节
- 数据集大小: 1803174179字节
t2ranking
- 特征:
- query: 字符串类型
- positive: 字符串序列
- negative: 字符串序列
- answers: 空序列
- 分割:
- train: 200376个样本,总大小531938618字节
- 下载大小: 344954364字节
- 数据集大小: 531938618字节
数据文件路径
- cmedqa2:
cmedqa2/train-* - dureader:
dureader/train-* - mmarco_merged:
mmarco_merged/train-* - multi-cpr-ecom:
multi-cpr-ecom/train-* - multi-cpr-medical:
multi-cpr-medical/train-* - multi-cpr-video:
multi-cpr-video/train-* - t2ranking:
t2ranking/train-*



