saepark/explicitMedical-nonmedical-hhrlhf-RMTrainingData-CldMedicalFiltered
收藏Hugging Face2025-12-11 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/saepark/explicitMedical-nonmedical-hhrlhf-RMTrainingData-CldMedicalFiltered
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: prompt
dtype: string
- name: chosen
list:
- name: content
dtype: string
- name: role
dtype: string
- name: rejected
list:
- name: content
dtype: string
- name: role
dtype: string
- name: index
dtype: int64
- name: medical_tier
dtype: string
- name: reasoning_for_medical_tier
dtype: string
- name: medical_classification_full_response
dtype: string
- name: medical_classification_model_id
dtype: string
splits:
- name: train
num_bytes: 23556885
num_examples: 10047
download_size: 11728961
dataset_size: 23556885
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集元信息如下:
#### 特征字段
1. 提示词(prompt):数据类型为字符串
2. 已选响应(chosen):列表类型字段,其内部包含两个子特征:`content`(内容,字符串类型)与`role`(角色,字符串类型),指代被选中的优质对话响应序列
3. 拒选响应(rejected):列表类型字段,内部包含`content`与`role`两个字符串类型子特征,指代被拒选的低质对话响应序列
4. 样本索引(index):数据类型为64位整型
5. 医疗分级标签(medical_tier):字符串类型字段,用于标注医疗分级类别
6. 医疗分级推理依据(reasoning_for_medical_tier):字符串类型字段,记录医疗分级的判定推理过程与依据
7. 医疗分类完整响应(medical_classification_full_response):字符串类型字段,存储医疗分类任务的完整输出结果
8. 医疗分类模型标识符(medical_classification_model_id):字符串类型字段,指代用于医疗分类的模型的唯一标识ID
#### 划分集信息
训练集(train):占用字节数为23556885,共包含10047条样本。
该数据集的总下载大小为11728961,数据集本体大小为23556885。
#### 配置信息
默认配置(default):其关联训练集的数据文件路径为`data/train-*`。
提供机构:
saepark



