chenxz/RareBench

Name: chenxz/RareBench
Creator: chenxz
Published: 2024-05-18 05:59:50
License: 暂无描述

Hugging Face2024-05-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/chenxz/RareBench

下载链接

链接失效反馈

官方服务：

资源简介：

RareBench是一个开创性的基准，旨在系统评估大型语言模型（LLMs）在罕见疾病领域四个关键维度的能力。同时，我们编制了最大的罕见疾病患者开源数据集，为该领域的未来研究设立了基准。为了促进罕见疾病的鉴别诊断，我们开发了一种动态少样本提示方法，利用从多个知识库合成的罕见疾病知识图谱，显著提升了LLMs的诊断性能。此外，我们进行了GPT-4与专科医生诊断能力的详尽比较研究。我们的实验结果强调了将LLMs整合到罕见疾病临床诊断过程中的潜在前景。

RareBench is a groundbreaking benchmark designed to systematically evaluate the capabilities of Large Language Models (LLMs) across four key dimensions in the field of rare diseases. Meanwhile, we have compiled the largest open-source dataset of rare disease patients, establishing a benchmark for future research in this domain. To facilitate differential diagnosis of rare diseases, we developed a dynamic few-shot prompting method that leverages a rare disease knowledge graph synthesized from multiple knowledge bases, significantly enhancing the diagnostic performance of LLMs. Additionally, we conducted an exhaustive comparative study on the diagnostic capabilities between GPT-4 and specialist physicians. Our experimental results highlight the potential prospects of integrating LLMs into the clinical diagnostic workflow for rare diseases.

提供机构：

chenxz

原始信息汇总

RareBench 数据集概述

基本信息

配置名称: default
许可证: apache-2.0
任务类别: question-answering
语言: en
标签: medical
数据集大小: 1K<n<10K

数据集描述

RareBench 是一个开创性的基准，旨在系统评估大型语言模型（LLMs）在罕见疾病领域的四个关键维度上的能力。同时，我们编制了最大的开放源代码罕见疾病患者数据集，为该领域的未来研究建立了基准。

数据加载

python from datasets import load_dataset

datasets = ["RAMEDIS", "MME", "HMS", "LIRICAL", "PUMCH_ADM"]

for dataset in datasets: data = load_dataset(chenxz/RareBench, dataset, split=test) print(data)

数据格式

json { "Phenotype": "The list of phenotypes presented in HPO codes", "RareDisease": "The list of rare diseases code including OMIM, Orphanet and CCRD format", "Department": "(Optional) Only provided in PUMCH_ADM" }

数据来源

数据收集与统计

本研究将数据集分为两大类：公开可用的数据集和北京协和医院（PUMCH）数据集。

数据集	RAMEDIS	MME	HMS	LIRICAL	PUMCH_ADM
国家/地区	欧洲	加拿大	德国	多国	中国
病例数	624	40	88	370	75
疾病数	74	17	39	252	16
科室数	N/A	N/A	N/A	N/A	5
每种疾病的病例数
--- 最小值	1	1	1	1	3
--- 中位数	2	1	1	1	5
--- 最大值	82	11	11	19	8
每个病例的HPO术语数
--- 最小值	3	3	5	3	3
--- 中位数	9	10.5	17.5	11	16
--- 最大值	46	26	54	95	47

注意：PUMCH的总病例数为1,650。目前仅公开了用于人机对比实验的75例。

数据处理

我们应用合理的过滤标准，识别并移除由记录错误或缺失信息导致的低质量病例，例如诊断不确定或不精确以及缺乏足够相关信息的病例（少于三个表型）。

个人和敏感信息

PUMCH的医生在上传文本信息之前对所有病例进行了监控，确保没有任何潜在的个人信息泄露。

映射文件

映射目录中的文件包括：

phenotype_mapping.json: HPO表型代码映射到术语名称
disease_mapping.json: OMIM/Orphanet/CCRD代码映射到疾病名称
ic_dict.json: HPO表型术语的信息内容（IC）值，从HPO层次结构中获得
phe2embedding.json: HPO表型术语的256维嵌入向量，通过基于IC的随机游走学习得到

引用

@article{chen2024rarebench, title={RareBench: Can LLMs Serve as Rare Diseases Specialists?}, author={Chen, Xuanzhong and Mao, Xiaohao and Guo, Qihan and Wang, Lun and Zhang, Shuyang and Chen, Ting}, journal={arXiv preprint arXiv:2402.06341}, year={2024} }

搜集汇总

数据集介绍

构建方式

RareBench数据集的构建基于对罕见病领域的深入理解，整合了欧洲、加拿大、德国、多国以及中国等地区的公开数据集，以及北京协和医学院医院的病例数据。数据集通过合理筛选标准，剔除了低质量或信息不全的病例，并确保了数据的真实性和准确性。构建过程中，采用了动态少量样本提示方法，结合了从多个知识库合成的罕见病知识图谱，显著提升了LLMs的诊断性能。

特点

RareBench数据集的特点在于它是目前最大的开源罕见病患者数据集，专为评估LLMs在罕见病领域的诊断能力而设计。数据集包含了丰富的表型信息，以及罕见病的多种编码格式，涵盖了不同国家和地区的病例，具有广泛的代表性。此外，数据集还提供了映射文件，以便于将HPO表型代码和疾病编码映射到相应的术语和疾病名称。

使用方法

使用RareBench数据集，用户首先需要从指定的数据集中加载数据，如RAMEDIS、MME、HMS、LIRICAL和PUMCH_ADM。数据以JSON格式提供，包括表型、罕见病编码和科室信息。用户可以使用提供的映射文件来解析这些数据，并进行自动化评估。此外，数据集的GitHub仓库提供了进一步的评估方法和相关文件。

背景与挑战

背景概述

RareBench数据集，作为KDD2024 ADS Track的先驱性基准，旨在系统评估大型语言模型在罕见病领域的四个关键维度上的能力。该数据集由陈宣中等人创建，依托于多知识库合成的全面罕见病知识图谱，通过动态的少量样本提示方法，显著提升了大型语言模型在诊断性能上的表现。RareBench不仅汇集了最大的开源罕见病患者数据集，为未来相关领域的研究奠定了基础，其研究成果亦揭示了将大型语言模型集成到临床诊断过程中的巨大潜力。

当前挑战

RareBench数据集面临的挑战主要在于罕见病数据的稀缺性和异质性。构建过程中需克服的挑战包括：确保数据的质量和完整性，处理数据中的个人敏感信息，以及开发能够有效适应少量样本情况下的模型评估方法。在研究领域问题上，RareBench致力于解决罕见病的诊断难题，其挑战在于如何利用有限的病例数据，提高模型的诊断准确率和可靠性，并与专业医生的诊断能力进行有效比较。

常用场景

经典使用场景

在罕见疾病的诊断与研究中，RareBench数据集以其系统性地评估大型语言模型在四个关键维度上的能力而显得尤为重要。该数据集的使用场景主要集中于对LLMs在罕见疾病领域的诊断性能进行精准评估，通过动态的少量样本提示方法，结合全面的知识图谱，显著提升LLMs的诊断效率。

衍生相关工作

基于RareBench数据集的研究已经衍生出一系列相关工作，包括对LLMs在罕见疾病诊断中的性能评估、知识图谱的构建与应用、以及新型诊断模型的开发等。这些工作不仅推动了人工智能在医疗领域的应用，也为罕见疾病的研究与治疗提供了新的方法和工具。

数据集最近研究