HotpotBio Datasets
收藏github2024-11-22 更新2024-11-28 收录
下载链接:
https://github.com/HotpotDesign/HotpotBio
下载链接
链接失效反馈官方服务:
资源简介:
HotpotBio数据集是由HotpotBio研究组与斯坦福、UCSF等领先机构合作发布的医疗数据集和基准,旨在推动癌症研究和AI医生的发展。这些数据集包括与手术、医学影像、生物医学转录、生物医学文本理解、生物医学隐私和生物医学推理相关的数据。
The HotpotBio dataset is a collection of medical datasets and benchmarks released by the HotpotBio research group in collaboration with leading institutions such as Stanford University, University of California, San Francisco (UCSF). It aims to advance cancer research and the development of AI physicians. These datasets encompass data related to surgery, medical imaging, biomedical transcription, biomedical text understanding, biomedical privacy, and biomedical reasoning.
创建时间:
2024-11-19
原始信息汇总
HotpotBio 数据集概述
数据集简介
HotpotBio 是一个专注于生物医学领域的开源研究项目,旨在通过发布数据集和基准测试,推动癌症研究和人工智能医生的发展。
问题背景
- 癌症是全球第二大致死原因,每年导致约1000万人死亡。
- 现有医疗资源无法满足个性化医疗的需求。
主要目标
- 将医学知识转化为适合工程师和研究人员使用的格式,以促进人工智能在生物医学领域的发展。
- 与斯坦福大学、UCSF等领先机构合作,发布数据集和基准测试。
研究方向
AI Doctor Research
- AI Vision: 手术实时解剖检测、医学影像疾病检测。
- AI Hearing: 生物医学转录,特别是口音重的对话转录。
- AI Reading: 生物医学文本理解和信息提取。
- AI Privacy: 在保护患者隐私的前提下,扩展数据集和促进多机构合作。
- AI Reasoning: 确保诊断和建议与专家临床判断一致。
Cancer Research
- 研究Epstein-Barr病毒(EBV)与癌症的关系,重点关注乳腺癌、肺癌、鼻咽癌等。
- 开发Joint Omics Adaptive Nosological (JOAN)检测框架,用于癌症样本中的病毒检测。
数据集捐赠
- 呼吁捐赠1K TNBC(三阴性乳腺癌)数据集,以推动癌症研究。
- 捐赠直接流向斯坦福大学,HotpotBio不从中获利。
合作邀请
- 欢迎学术界和工业界的合作,特别是在肿瘤学、病毒学、手术、儿科等领域。
- 欢迎机器学习和软件开发领域的贡献。
研究文化
- 专注于科学研究,将政策和伦理问题留给其他论坛。
- 强调共享优先事项和明确期望,以促进更高效的合作。
联系方式
- 作者:Clarence Hu
- 联系方式:
- X: https://x.com/panabee
- 邮箱:clarence --at-- hotpot dot ai
搜集汇总
数据集介绍

构建方式
HotpotBio数据集的构建方式体现了跨学科合作的精髓。该数据集由Hotpot.ai创始人Clarence Hu发起,旨在通过与斯坦福大学、UCSF等顶尖医学机构的专家合作,将复杂的医学知识转化为适用于工程师和研究人员的格式。具体构建过程中,团队首先与医学专家共同定义关键临床任务和要求,然后利用AI技术生成和审查多选题,最终形成高质量的医学数据集。这一过程不仅确保了数据的专业性和准确性,还促进了医学与技术的深度融合。
特点
HotpotBio数据集的显著特点在于其跨学科性和实用性。该数据集不仅涵盖了癌症研究、AI医生研究等多个前沿领域,还特别关注了Epstein-Barr病毒与癌症的关联,如乳腺癌和肺癌等常见癌症类型。此外,数据集还涉及AI在医学影像、生物医学文本理解、隐私保护等多个方面的应用,为研究人员提供了丰富的资源。其开放性和合作性也是一大亮点,鼓励学术界和工业界的广泛参与,共同推动医学AI的发展。
使用方法
HotpotBio数据集的使用方法灵活多样,适用于不同背景的研究人员。首先,用户可以通过GitHub页面下载数据集,并根据提供的文档进行数据预处理。其次,数据集支持多种机器学习任务,如计算机视觉、自然语言处理等,用户可以根据研究需求选择合适的模型进行训练和评估。此外,HotpotBio还提供了详细的教程和示例代码,帮助用户快速上手。对于希望深入合作的机构和个人,HotpotBio也提供了合作机会,鼓励共同推动医学AI的研究和应用。
背景与挑战
背景概述
HotpotBio数据集由Clarence Hu创立的计算机视觉-语言初创公司Hotpot.ai发起,旨在通过生物医学领域的开放研究推动癌症研究和人工智能医生的发展。该数据集的创建背景源于全球癌症的高发病率和死亡率,以及现有医疗资源无法满足个性化医疗需求的现状。HotpotBio数据集的核心研究问题包括癌症的早期检测、个性化治疗方案的制定以及AI在医疗领域的应用。该数据集的发布不仅为研究人员提供了宝贵的资源,还促进了跨学科的合作,特别是在计算机视觉、自然语言处理和生物信息学领域。
当前挑战
HotpotBio数据集面临的挑战主要集中在数据质量和跨学科合作方面。首先,高质量的数据集和基准测试对于机器学习的快速发展至关重要,但技术专家和医疗专家之间的知识鸿沟限制了数据集的有效构建和使用。其次,数据隐私和安全问题在生物医学领域尤为突出,如何在保护患者隐私的同时促进多机构合作是一个重大挑战。此外,尽管AI在医疗领域的应用前景广阔,但如何确保AI诊断和推荐与专家临床判断相匹配,仍需进一步研究和验证。
常用场景
经典使用场景
HotpotBio Datasets 在癌症研究和人工智能医生领域展现了其经典应用场景。该数据集通过整合来自斯坦福、UCSF等顶尖机构的医学专业知识,为工程师和研究人员提供了适合的医学数据格式,从而推动了AI在生物医学领域的应用。具体而言,数据集在AI视觉、AI听觉、AI阅读、AI隐私和AI推理等多个方面提供了丰富的数据支持,特别是在手术实时解剖检测、医学影像疾病检测、生物医学文本理解和隐私保护等方面,为AI医生的研发提供了坚实的基础。
解决学术问题
HotpotBio Datasets 解决了在生物医学领域中常见的数据稀缺和质量不足的问题。通过与医学专家的合作,该数据集提供了高质量的医学数据和基准,使得机器学习模型能够更有效地训练和改进。这不仅加速了AI在生物医学领域的研究进展,还为解决癌症等重大疾病提供了新的研究路径。此外,数据集的开放性促进了跨学科的合作,推动了生物医学和人工智能的融合发展。
衍生相关工作
HotpotBio Datasets 的发布催生了一系列相关的经典工作。例如,基于该数据集的研究在AI视觉和AI听觉领域取得了显著进展,推动了手术辅助系统和生物医学转录技术的发展。此外,数据集在AI阅读和AI推理方面的应用,促进了生物医学文本理解和临床决策支持系统的研究。这些衍生工作不仅丰富了AI在生物医学领域的应用场景,还为未来的研究提供了新的方向和灵感。
以上内容由遇见数据集搜集并总结生成



