chenxz/RareBench
收藏RareBench 数据集概述
基本信息
- 配置名称: default
- 许可证: apache-2.0
- 任务类别: question-answering
- 语言: en
- 标签: medical
- 数据集大小: 1K<n<10K
数据集描述
RareBench 是一个开创性的基准,旨在系统评估大型语言模型(LLMs)在罕见疾病领域的四个关键维度上的能力。同时,我们编制了最大的开放源代码罕见疾病患者数据集,为该领域的未来研究建立了基准。
数据加载
python from datasets import load_dataset
datasets = ["RAMEDIS", "MME", "HMS", "LIRICAL", "PUMCH_ADM"]
for dataset in datasets: data = load_dataset(chenxz/RareBench, dataset, split=test) print(data)
数据格式
json { "Phenotype": "The list of phenotypes presented in HPO codes", "RareDisease": "The list of rare diseases code including OMIM, Orphanet and CCRD format", "Department": "(Optional) Only provided in PUMCH_ADM" }
数据来源
数据收集与统计
本研究将数据集分为两大类:公开可用的数据集和北京协和医院(PUMCH)数据集。
| 数据集 | RAMEDIS | MME | HMS | LIRICAL | PUMCH_ADM |
|---|---|---|---|---|---|
| 国家/地区 | 欧洲 | 加拿大 | 德国 | 多国 | 中国 |
| 病例数 | 624 | 40 | 88 | 370 | 75 |
| 疾病数 | 74 | 17 | 39 | 252 | 16 |
| 科室数 | N/A | N/A | N/A | N/A | 5 |
| 每种疾病的病例数 | |||||
| --- 最小值 | 1 | 1 | 1 | 1 | 3 |
| --- 中位数 | 2 | 1 | 1 | 1 | 5 |
| --- 最大值 | 82 | 11 | 11 | 19 | 8 |
| 每个病例的HPO术语数 | |||||
| --- 最小值 | 3 | 3 | 5 | 3 | 3 |
| --- 中位数 | 9 | 10.5 | 17.5 | 11 | 16 |
| --- 最大值 | 46 | 26 | 54 | 95 | 47 |
注意:PUMCH的总病例数为1,650。目前仅公开了用于人机对比实验的75例。
数据处理
我们应用合理的过滤标准,识别并移除由记录错误或缺失信息导致的低质量病例,例如诊断不确定或不精确以及缺乏足够相关信息的病例(少于三个表型)。
个人和敏感信息
PUMCH的医生在上传文本信息之前对所有病例进行了监控,确保没有任何潜在的个人信息泄露。
映射文件
映射目录中的文件包括:
phenotype_mapping.json: HPO表型代码映射到术语名称disease_mapping.json: OMIM/Orphanet/CCRD代码映射到疾病名称ic_dict.json: HPO表型术语的信息内容(IC)值,从HPO层次结构中获得phe2embedding.json: HPO表型术语的256维嵌入向量,通过基于IC的随机游走学习得到
引用
@article{chen2024rarebench, title={RareBench: Can LLMs Serve as Rare Diseases Specialists?}, author={Chen, Xuanzhong and Mao, Xiaohao and Guo, Qihan and Wang, Lun and Zhang, Shuyang and Chen, Ting}, journal={arXiv preprint arXiv:2402.06341}, year={2024} }




