five

BeastyZ/cmteb_retrieval

收藏
Hugging Face2024-06-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/BeastyZ/cmteb_retrieval
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,如cmedqa2、dureader、mmarco_merged等,每个配置都包含查询、正面、负面和答案等特征。所有配置都只有训练集分割,适用于自然语言处理任务,如问答系统和信息检索。数据集的语言为中文。

This dataset includes multiple configurations such as cmedqa2, dureader, mmarco_merged, etc. Each configuration contains features like query, positive, negative, and answers. All configurations have only a training split and are suitable for natural language processing tasks such as question answering systems and information retrieval. The language of the dataset is Chinese.
提供机构:
BeastyZ
原始信息汇总

数据集概述

数据集配置信息

cmedqa2

  • 特征:
    • query: 字符串类型
    • positive: 字符串序列
    • negative: 字符串序列
    • answers: 空序列
  • 分割:
    • train: 100000个样本,总大小1587455490字节
  • 下载大小: 1027804069字节
  • 数据集大小: 1587455490字节

dureader

  • 特征:
    • query: 字符串类型
    • positive: 字符串序列
    • negative: 字符串序列
    • answers: 空序列
  • 分割:
    • train: 86395个样本,总大小7895977861字节
  • 下载大小: 5019668526字节
  • 数据集大小: 7895977861字节

mmarco_merged

  • 特征:
    • query: 字符串类型
    • positive: 字符串序列
    • negative: 字符串序列
    • answers: 空序列
  • 分割:
    • train: 388596个样本,总大小24887177062字节
  • 下载大小: 7142801140字节
  • 数据集大小: 24887177062字节

multi-cpr-ecom

  • 特征:
    • query: 字符串类型
    • positive: 字符串序列
    • negative: 字符串序列
    • answers: 空序列
  • 分割:
    • train: 100000个样本,总大小1778251126字节
  • 下载大小: 1049289853字节
  • 数据集大小: 1778251126字节

multi-cpr-medical

  • 特征:
    • query: 字符串类型
    • positive: 字符串序列
    • negative: 字符串序列
    • answers: 空序列
  • 分割:
    • train: 99999个样本,总大小6924807931字节
  • 下载大小: 3710282294字节
  • 数据集大小: 6924807931字节

multi-cpr-video

  • 特征:
    • query: 字符串类型
    • positive: 字符串序列
    • negative: 字符串序列
    • answers: 空序列
  • 分割:
    • train: 100000个样本,总大小1803174179字节
  • 下载大小: 1290090817字节
  • 数据集大小: 1803174179字节

t2ranking

  • 特征:
    • query: 字符串类型
    • positive: 字符串序列
    • negative: 字符串序列
    • answers: 空序列
  • 分割:
    • train: 200376个样本,总大小531938618字节
  • 下载大小: 344954364字节
  • 数据集大小: 531938618字节

数据文件路径

  • cmedqa2: cmedqa2/train-*
  • dureader: dureader/train-*
  • mmarco_merged: mmarco_merged/train-*
  • multi-cpr-ecom: multi-cpr-ecom/train-*
  • multi-cpr-medical: multi-cpr-medical/train-*
  • multi-cpr-video: multi-cpr-video/train-*
  • t2ranking: t2ranking/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作