five

saepark/explicitMedical-nonmedical-hhrlhf-RMTrainingData-CldMedicalFiltered

收藏
Hugging Face2025-12-11 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/saepark/explicitMedical-nonmedical-hhrlhf-RMTrainingData-CldMedicalFiltered
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: prompt dtype: string - name: chosen list: - name: content dtype: string - name: role dtype: string - name: rejected list: - name: content dtype: string - name: role dtype: string - name: index dtype: int64 - name: medical_tier dtype: string - name: reasoning_for_medical_tier dtype: string - name: medical_classification_full_response dtype: string - name: medical_classification_model_id dtype: string splits: - name: train num_bytes: 23556885 num_examples: 10047 download_size: 11728961 dataset_size: 23556885 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集元信息如下: #### 特征字段 1. 提示词(prompt):数据类型为字符串 2. 已选响应(chosen):列表类型字段,其内部包含两个子特征:`content`(内容,字符串类型)与`role`(角色,字符串类型),指代被选中的优质对话响应序列 3. 拒选响应(rejected):列表类型字段,内部包含`content`与`role`两个字符串类型子特征,指代被拒选的低质对话响应序列 4. 样本索引(index):数据类型为64位整型 5. 医疗分级标签(medical_tier):字符串类型字段,用于标注医疗分级类别 6. 医疗分级推理依据(reasoning_for_medical_tier):字符串类型字段,记录医疗分级的判定推理过程与依据 7. 医疗分类完整响应(medical_classification_full_response):字符串类型字段,存储医疗分类任务的完整输出结果 8. 医疗分类模型标识符(medical_classification_model_id):字符串类型字段,指代用于医疗分类的模型的唯一标识ID #### 划分集信息 训练集(train):占用字节数为23556885,共包含10047条样本。 该数据集的总下载大小为11728961,数据集本体大小为23556885。 #### 配置信息 默认配置(default):其关联训练集的数据文件路径为`data/train-*`。
提供机构:
saepark
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作