five

RareArena

收藏
Hugging Face2024-12-13 更新2024-12-14 收录
下载链接:
https://huggingface.co/datasets/THUMedInfo/RareArena
下载链接
链接失效反馈
官方服务:
资源简介:
RareArena是一个综合性的罕见病诊断数据集,涵盖了近50,000名患者和超过4000种疾病。数据集仍在开发中,相关论文即将发布。
创建时间:
2024-12-02
原始信息汇总

RareArena

概述

RareArena 是一个综合性的罕见疾病诊断数据集,涵盖了近50,000名患者和超过4000种疾病。

任务类别

  • 问答

语言

  • 英语

标签

  • 罕见疾病
  • 诊断

数据集规模

  • 10K < n < 100K

评估

评估模型在 RareArena 上的表现分为三个步骤:

  1. 使用模型生成前5个诊断结果。提供了 OpenAI 风格的脚本和论文中使用的简单提示,位于 eval/run.py
  2. 使用 GPT-4o 评估前5个诊断结果(由于存在同义词和上位词,识别真实诊断具有挑战性)。GPT-4o 的脚本和提示位于 eval/eval.py
  3. 解析评估输出并计算 top-1 和 top-5 召回率,使用 eval/metric.py

数据收集

要复现 RareArena,请首先复现 PMC-Patients,然后按照论文中描述的管道进行操作。所有提示均可在论文的补充材料中找到。

许可证

RareArena 基于 CC BY-NC-SA 4.0 许可证发布。

搜集汇总
数据集介绍
main_image_url
构建方式
RareArena数据集的构建基于对罕见疾病的全面覆盖,涵盖了近50,000名患者和超过4,000种疾病。其构建过程依赖于PMC-Patients数据集的复现,随后通过论文中详细描述的管道进行进一步处理。所有用于数据收集的提示均可在论文的补充材料中找到,确保了数据集的可重复性和透明性。
特点
RareArena数据集的显著特点在于其广泛性和复杂性,涵盖了大量罕见疾病,为罕见病诊断提供了丰富的数据支持。此外,数据集中包含了同义词和上位词的存在,增加了诊断的难度,从而为模型评估提供了更为真实的挑战。
使用方法
使用RareArena数据集进行模型评估时,需遵循三个步骤:首先,利用模型生成前五个诊断结果;其次,使用GPT-4o评估这些诊断结果的准确性;最后,通过提供的脚本解析评估输出并计算top-1和top-5的召回率。这一过程确保了评估的全面性和准确性。
背景与挑战
背景概述
在罕见病诊断领域,准确且高效的诊断工具一直是医学研究的重点。RareArena数据集由一支专注于罕见病诊断的研究团队创建,旨在为机器学习模型提供一个全面的罕见病诊断数据资源。该数据集涵盖了近50,000名患者,涉及超过4000种罕见疾病,极大地丰富了罕见病诊断领域的数据资源。其创建时间虽未明确,但研究团队已表明即将发布相关论文,预示着该数据集在医学和人工智能交叉领域的潜在影响力。
当前挑战
RareArena数据集在构建过程中面临诸多挑战。首先,罕见病的多样性和复杂性使得数据收集和标注变得尤为困难,尤其是在处理同义词和上位词时,准确识别真实诊断成为一大难题。其次,数据集的评估过程需要借助GPT-4等先进模型,进一步增加了评估的复杂性。此外,如何确保数据集的广泛适用性和持续更新,也是该数据集未来发展中需要解决的重要问题。
常用场景
经典使用场景
RareArena数据集在罕见病诊断领域展现了其独特的应用价值。该数据集通过整合近50,000名患者的详细信息,涵盖超过4000种罕见疾病,为研究者提供了一个全面的罕见病诊断资源。其经典使用场景主要体现在利用机器学习模型对患者数据进行分析,生成前五位的诊断建议,并通过GPT-4o进行进一步的验证和评估,从而提高诊断的准确性和可靠性。
衍生相关工作
RareArena数据集的发布催生了一系列相关研究工作。首先,基于该数据集的诊断模型优化成为研究热点,许多学者致力于提升模型的诊断准确性和泛化能力。其次,该数据集的评估方法也被广泛应用于其他医疗数据集的验证中,推动了医疗AI评估标准的统一化。此外,RareArena的成功案例还激发了对其他罕见病相关数据集的开发和研究,进一步丰富了罕见病研究的资源库。
数据集最近研究
最新研究方向
在罕见病诊断领域,RareArena数据集的最新研究方向聚焦于提升诊断模型的准确性和泛化能力。该数据集涵盖了近50,000名患者和超过4000种罕见疾病,为研究者提供了丰富的临床数据资源。前沿研究主要集中在通过GPT-4等先进语言模型进行诊断评估,利用其强大的语义理解能力处理疾病名称的同义词和上位词问题。此外,研究还探索了如何通过优化提示工程和模型微调,进一步提高诊断的召回率和精确度。这些研究不仅推动了罕见病诊断技术的发展,也为个性化医疗和精准医学提供了重要的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作