ChatDoctor|医学对话数据集|语言模型数据集
收藏ChatDoctor 数据集概述
数据集基本信息
- 名称: ChatDoctor
- 类型: 医疗对话数据集
- 开发者: Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan, Steve Jiang, You Zhang
- 机构:
- UT Southwestern Medical Center, USA
- University of Illinois at Urbana-Champaign, USA
- Ohio State University, USA
- Hangzhou Dianzi University, China
- 许可证: Apache 2.0
- 编程语言: Python 3.9+
- 相关论文: ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge
数据集内容
1. 医疗对话数据
- HealthCareMagic-100k: 来自HealthCareMagic.com的10万条真实医患对话。
- 下载链接: HealthCareMagic-100k
- icliniq-10k: 来自icliniq.com的1万条真实医患对话。
- 下载链接: icliniq-10k
- GenMedGPT-5k: 由ChatGPT生成的5千条医患对话。
- 下载链接: GenMedGPT-5k
- 疾病数据库: format_dataset.csv
- 基础对话能力数据: Stanford Alpaca数据。
- 下载链接: Alpaca link
2. 模型权重
- 下载链接: ChatDoctor Checkpoints
数据集特点
- 数据来源: 真实医患对话和生成对话相结合。
- 数据处理: 手动和自动过滤,去除身份信息,纠正语法错误。
- 多样性: 包含多种疾病和症状的描述,提高模型的泛化能力。
应用场景
- 医疗问答: 患者可以通过ChatDoctor模型获取医疗建议。
- 学术研究: 用于医疗对话生成和自然语言处理研究。
使用限制
- 禁止商业用途: 由于基于LLaMA的非商业许可证,禁止任何商业用途。
- 禁止临床用途: 模型未获得医疗相关许可,不保证医疗诊断的完全正确性。
相关资源
参考文献
bibtex @article{li2023chatdoctor, title={ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge}, author={Li, Yunxiang and Li, Zihan and Zhang, Kai and Dan, Ruilong and Jiang, Steve and Zhang, You}, journal={Cureus}, volume={15}, number={6}, year={2023}, publisher={Cureus} }

Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录