michaelwzhu/ChatMed_Consult_Dataset|医疗咨询数据集|自然语言处理数据集
收藏数据集概述
数据集描述
- 名称: ChatMed-Dataset
- 语言: 中文 (zh)
- 许可: Creative Commons NonCommercial (CC BY-NC 4.0)
- 标签: 医疗咨询, 微调
- 任务类别: 文本生成
数据集总结
ChatMed-Dataset 包含110,113对医疗查询-响应配对,这些配对使用OpenAI的GPT-3.5
引擎生成。查询数据从多个在线医疗咨询网站爬取,反映了真实世界的医疗需求。响应由OpenAI引擎生成,旨在为中文大型语言模型注入医疗知识。
支持的任务和排行榜
该数据集设计用于微调预训练语言模型,以在自动医疗咨询中表现更佳。
数据集结构
数据实例
数据集采用json-line格式,便于使用。示例数据如下:
json { "query": "你好,视神经萎缩,黄斑变性。怎样缓解,及日常注意事项。谢谢。", "response": "视神经萎缩和黄斑变性是两种不同的疾病,需要分别进行治疗。
视神经萎缩是指视神经逐渐受损,导致视力逐渐减退,常见的治疗方法包括:
1.药物治疗:如促进视神经细胞再生的药物,改善视网膜供血的药物等。
2.手术治疗:如视神经萎缩的手术治疗可以通过神经移植、修复和再生等手术方式来缓解症状。
3.康复训练:通过视力训练等康复训练可以帮助患者恢复视力。
黄斑变性则是指黄斑区域受损,导致中央视力减退,常见的治疗方法包括:
1.药物治疗:如抗氧化剂、维生素等可以缓解症状。
2.手术治疗:如黄斑脱离手术等可以恢复视力。
3.日常注意事项:保持良好的生活习惯,如戒烟、控制血压、血糖等,避免暴晒和过度用眼,保持充足的睡眠和均衡的饮食等。
需要根据具体情况选择合适的治疗方案,建议您咨询专业医生进行诊断和治疗。" }
数据字段
query
: 来自网络的真实医疗查询。response
: 由OpenAIGPT-3.5
引擎生成的响应。
数据分割
train | |
---|---|
ChatMed-Dataset | 110,113 |
使用数据的考虑
数据集的社会影响
该数据集的发布旨在使学术界能够对大型语言模型如何响应真实医疗查询进行科学研究。
数据集的已知限制
数据集由语言模型(GPT-3.5
)生成,可能包含错误或偏见。建议用户谨慎使用,并提出新的方法来过滤或改进这些不完美之处。

中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录