ticoAg/ChatMed_Consult_Dataset
收藏ChatMed-Dataset 数据集概述
数据集描述
数据集摘要
ChatMed-Dataset 是一个包含 110,113 对医疗问答数据集(中文),由 OpenAI 的 GPT-3.5 引擎生成。问答对来源于多个在线医疗咨询网站,反映了现实世界中的医疗需求。该数据集旨在为中文大型语言模型注入医疗知识。
支持的任务和排行榜
ChatMed-Dataset 设计用于微调预训练的语言模型,以更好地执行自动医疗咨询。
语言
ChatMed-Dataset 中的数据为中文(zh)。
数据集结构
数据实例
数据集采用 json-line 格式,使用方便。示例如下:
json { "query": "你好,视神经萎缩,黄斑变性。怎样缓解,及日常注意事项。谢谢。", "response": "视神经萎缩和黄斑变性是两种不同的疾病,需要分别进行治疗。
视神经萎缩是指视神经逐渐受损,导致视力逐渐减退,常见的治疗方法包括:
1.药物治疗:如促进视神经细胞再生的药物,改善视网膜供血的药物等。
2.手术治疗:如视神经萎缩的手术治疗可以通过神经移植、修复和再生等手术方式来缓解症状。
3.康复训练:通过视力训练等康复训练可以帮助患者恢复视力。
黄斑变性则是指黄斑区域受损,导致中央视力减退,常见的治疗方法包括:
1.药物治疗:如抗氧化剂、维生素等可以缓解症状。
2.手术治疗:如黄斑脱离手术等可以恢复视力。
3.日常注意事项:保持良好的生活习惯,如戒烟、控制血压、血糖等,避免暴晒和过度用眼,保持充足的睡眠和均衡的饮食等。
需要根据具体情况选择合适的治疗方案,建议您咨询专业医生进行诊断和治疗。" }
数据字段
数据字段如下:
query: 来自网络的真实医疗查询。response: 由 OpenAIGPT-3.5引擎生成的回答。
数据分割
| train | |
|---|---|
| ChatMed-Dataset | 110,113 |
数据集创建
数据集的考虑因素
数据集的社会影响
我们相信,发布上述资产将使学术界能够对大型语言模型如何响应真实医疗查询进行受控的科学研究。更多社会影响将很快讨论!
偏见讨论
[更多信息待补充]
其他已知限制
ChatMed-Dataset 数据由语言模型 (GPT-3.5) 生成,不可避免地包含一些错误或偏见。我们鼓励用户谨慎使用此数据,并提出新的方法来过滤或改进不完美之处。
附加信息
许可证信息
数据集在 Creative Commons NonCommercial (CC BY-NC 4.0) 下可用。
引用信息
@misc{alpaca, author = {Wei Zhu }, title = {ChatMed-Dataset: An GPT generated medical query-response datasets for medcial large language models}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/michael-wzhu/ChatMed}}, }




