hgissbkh/CMedQAv2-reranking
收藏Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hgissbkh/CMedQAv2-reranking
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: acge_text_embedding
features:
- name: query
dtype: string
- name: docs
sequence: string
- name: query_enc
sequence: float64
- name: docs_enc
sequence:
sequence: float64
- name: cos_scores
sequence: float64
- name: target
sequence: int64
splits:
- name: train
num_bytes: 1480365770
num_examples: 1000
download_size: 1129623840
dataset_size: 1480365770
- config_name: gte-large-zh
features:
- name: query
dtype: string
- name: docs
sequence: string
- name: query_enc
sequence: float64
- name: docs_enc
sequence:
sequence: float64
- name: cos_scores
sequence: float64
- name: target
sequence: int64
splits:
- name: train
num_bytes: 859821770
num_examples: 1000
download_size: 656784901
dataset_size: 859821770
- config_name: multilingual-e5-base
features:
- name: query
dtype: string
- name: docs
sequence: string
- name: query_enc
sequence: float64
- name: docs_enc
sequence:
sequence: float64
- name: cos_scores
sequence: float64
- name: target
sequence: int64
splits:
- name: train
num_bytes: 652973770
num_examples: 1000
download_size: 497427217
dataset_size: 652973770
- config_name: multilingual-e5-large
features:
- name: query
dtype: string
- name: docs
sequence: string
- name: query_enc
sequence: float64
- name: docs_enc
sequence:
sequence: float64
- name: cos_scores
sequence: float64
- name: target
sequence: int64
splits:
- name: train
num_bytes: 859821770
num_examples: 1000
download_size: 655364260
dataset_size: 859821770
- config_name: multilingual-e5-small
features:
- name: query
dtype: string
- name: docs
sequence: string
- name: query_enc
sequence: float64
- name: docs_enc
sequence:
sequence: float64
- name: cos_scores
sequence: float64
- name: target
sequence: int64
splits:
- name: train
num_bytes: 342701770
num_examples: 1000
download_size: 257606818
dataset_size: 342701770
- config_name: stella-mrl-large-zh-v3.5-1792d
features:
- name: query
dtype: string
- name: docs
sequence: string
- name: query_enc
sequence: float64
- name: docs_enc
sequence:
sequence: float64
- name: cos_scores
sequence: float64
- name: target
sequence: int64
splits:
- name: train
num_bytes: 1480365770
num_examples: 1000
download_size: 1129866917
dataset_size: 1480365770
configs:
- config_name: acge_text_embedding
data_files:
- split: train
path: acge_text_embedding/train-*
- config_name: gte-large-zh
data_files:
- split: train
path: gte-large-zh/train-*
- config_name: multilingual-e5-base
data_files:
- split: train
path: multilingual-e5-base/train-*
- config_name: multilingual-e5-large
data_files:
- split: train
path: multilingual-e5-large/train-*
- config_name: multilingual-e5-small
data_files:
- split: train
path: multilingual-e5-small/train-*
- config_name: stella-mrl-large-zh-v3.5-1792d
data_files:
- split: train
path: stella-mrl-large-zh-v3.5-1792d/train-*
---
### 数据集信息
本数据集包含6个配置项,各配置详情如下:
1. **配置名称:acge_text_embedding**
数据集特征字段:
- `query`:数据类型为字符串(string)
- `docs`:字符串序列
- `query_enc`:64位浮点数序列
- `docs_enc`:双层64位浮点数序列
- `cos_scores`:64位浮点数序列
- `target`:64位整型序列
数据集划分:仅包含训练集(train),该划分字节大小为1480365770,样本总数为1000。
数据集下载体积为1129623840,总存储体积为1480365770。
2. **配置名称:gte-large-zh**
数据集特征字段:
- `query`:数据类型为字符串(string)
- `docs`:字符串序列
- `query_enc`:64位浮点数序列
- `docs_enc`:双层64位浮点数序列
- `cos_scores`:64位浮点数序列
- `target`:64位整型序列
数据集划分:仅包含训练集(train),该划分字节大小为859821770,样本总数为1000。
数据集下载体积为656784901,总存储体积为859821770。
3. **配置名称:multilingual-e5-base**
数据集特征字段:
- `query`:数据类型为字符串(string)
- `docs`:字符串序列
- `query_enc`:64位浮点数序列
- `docs_enc`:双层64位浮点数序列
- `cos_scores`:64位浮点数序列
- `target`:64位整型序列
数据集划分:仅包含训练集(train),该划分字节大小为652973770,样本总数为1000。
数据集下载体积为497427217,总存储体积为652973770。
4. **配置名称:multilingual-e5-large**
数据集特征字段:
- `query`:数据类型为字符串(string)
- `docs`:字符串序列
- `query_enc`:64位浮点数序列
- `docs_enc`:双层64位浮点数序列
- `cos_scores`:64位浮点数序列
- `target`:64位整型序列
数据集划分:仅包含训练集(train),该划分字节大小为859821770,样本总数为1000。
数据集下载体积为655364260,总存储体积为859821770。
5. **配置名称:multilingual-e5-small**
数据集特征字段:
- `query`:数据类型为字符串(string)
- `docs`:字符串序列
- `query_enc`:64位浮点数序列
- `docs_enc`:双层64位浮点数序列
- `cos_scores`:64位浮点数序列
- `target`:64位整型序列
数据集划分:仅包含训练集(train),该划分字节大小为342701770,样本总数为1000。
数据集下载体积为257606818,总存储体积为342701770。
6. **配置名称:stella-mrl-large-zh-v3.5-1792d**
数据集特征字段:
- `query`:数据类型为字符串(string)
- `docs`:字符串序列
- `query_enc`:64位浮点数序列
- `docs_enc`:双层64位浮点数序列
- `cos_scores`:64位浮点数序列
- `target`:64位整型序列
数据集划分:仅包含训练集(train),该划分字节大小为1480365770,样本总数为1000。
数据集下载体积为1129866917,总存储体积为1480365770。
### 数据集配置详情
所有配置均仅对应训练集划分,数据文件路径格式为`{配置名称}/train-*`,具体如下:
1. 配置`acge_text_embedding`:数据文件路径为`acge_text_embedding/train-*`
2. 配置`gte-large-zh`:数据文件路径为`gte-large-zh/train-*`
3. 配置`multilingual-e5-base`:数据文件路径为`multilingual-e5-base/train-*`
4. 配置`multilingual-e5-large`:数据文件路径为`multilingual-e5-large/train-*`
5. 配置`multilingual-e5-small`:数据文件路径为`multilingual-e5-small/train-*`
6. 配置`stella-mrl-large-zh-v3.5-1792d`:数据文件路径为`stella-mrl-large-zh-v3.5-1792d/train-*`
提供机构:
hgissbkh
原始信息汇总
数据集概述
数据集配置名称:acge_text_embedding
- 特征:
query: 字符串类型docs: 字符串序列类型query_enc: 浮点数序列类型docs_enc: 浮点数序列类型cos_scores: 浮点数序列类型target: 整数序列类型
- 分割:
train: 1000个样本,占用1480365770字节
- 下载大小: 1129623840字节
- 数据集大小: 1480365770字节
数据集配置名称:gte-large-zh
- 特征:
query: 字符串类型docs: 字符串序列类型query_enc: 浮点数序列类型docs_enc: 浮点数序列类型cos_scores: 浮点数序列类型target: 整数序列类型
- 分割:
train: 1000个样本,占用859821770字节
- 下载大小: 656784901字节
- 数据集大小: 859821770字节
数据集配置名称:multilingual-e5-base
- 特征:
query: 字符串类型docs: 字符串序列类型query_enc: 浮点数序列类型docs_enc: 浮点数序列类型cos_scores: 浮点数序列类型target: 整数序列类型
- 分割:
train: 1000个样本,占用652973770字节
- 下载大小: 497427217字节
- 数据集大小: 652973770字节
数据集配置名称:multilingual-e5-large
- 特征:
query: 字符串类型docs: 字符串序列类型query_enc: 浮点数序列类型docs_enc: 浮点数序列类型cos_scores: 浮点数序列类型target: 整数序列类型
- 分割:
train: 1000个样本,占用859821770字节
- 下载大小: 655364260字节
- 数据集大小: 859821770字节
数据集配置名称:multilingual-e5-small
- 特征:
query: 字符串类型docs: 字符串序列类型query_enc: 浮点数序列类型docs_enc: 浮点数序列类型cos_scores: 浮点数序列类型target: 整数序列类型
- 分割:
train: 1000个样本,占用342701770字节
- 下载大小: 257606818字节
- 数据集大小: 342701770字节
数据集配置名称:stella-mrl-large-zh-v3.5-1792d
- 特征:
query: 字符串类型docs: 字符串序列类型query_enc: 浮点数序列类型docs_enc: 浮点数序列类型cos_scores: 浮点数序列类型target: 整数序列类型
- 分割:
train: 1000个样本,占用1480365770字节
- 下载大小: 1129866917字节
- 数据集大小: 1480365770字节



