saepark/explicitMedical-nonmedical-hhrlhf-RMTrainingData-CldMedicalFiltered

Name: saepark/explicitMedical-nonmedical-hhrlhf-RMTrainingData-CldMedicalFiltered
Creator: saepark
Published: 2025-12-11 08:34:44
License: 暂无描述

Hugging Face2025-12-11 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/saepark/explicitMedical-nonmedical-hhrlhf-RMTrainingData-CldMedicalFiltered

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: prompt dtype: string - name: chosen list: - name: content dtype: string - name: role dtype: string - name: rejected list: - name: content dtype: string - name: role dtype: string - name: index dtype: int64 - name: medical_tier dtype: string - name: reasoning_for_medical_tier dtype: string - name: medical_classification_full_response dtype: string - name: medical_classification_model_id dtype: string splits: - name: train num_bytes: 23556885 num_examples: 10047 download_size: 11728961 dataset_size: 23556885 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集元信息如下： #### 特征字段 1. 提示词（prompt）：数据类型为字符串 2. 已选响应（chosen）：列表类型字段，其内部包含两个子特征：`content`（内容，字符串类型）与`role`（角色，字符串类型），指代被选中的优质对话响应序列 3. 拒选响应（rejected）：列表类型字段，内部包含`content`与`role`两个字符串类型子特征，指代被拒选的低质对话响应序列 4. 样本索引（index）：数据类型为64位整型 5. 医疗分级标签（medical_tier）：字符串类型字段，用于标注医疗分级类别 6. 医疗分级推理依据（reasoning_for_medical_tier）：字符串类型字段，记录医疗分级的判定推理过程与依据 7. 医疗分类完整响应（medical_classification_full_response）：字符串类型字段，存储医疗分类任务的完整输出结果 8. 医疗分类模型标识符（medical_classification_model_id）：字符串类型字段，指代用于医疗分类的模型的唯一标识ID #### 划分集信息训练集（train）：占用字节数为23556885，共包含10047条样本。该数据集的总下载大小为11728961，数据集本体大小为23556885。 #### 配置信息默认配置（default）：其关联训练集的数据文件路径为`data/train-*`。

提供机构：

saepark

5,000+

优质数据集

54 个

任务类型

进入经典数据集