rarebench-br-trajectory
收藏数据集概述
RareBench-BR Trajectory v2 (RBT-v2) 是一个专为罕见病患者轨迹预测设计的基准数据集,其核心特点是具有自相关性免疫能力。数据集来源于巴西统一医疗系统(DATASUS)中44,051名中枢神经系统相关罕见病患者的真实治疗轨迹。
数据集基本信息
- 许可证:CC-BY-NC 4.0
- 语言:葡萄牙语、英语
- 规模:100K到1M个样本
- 任务类型:时间序列预测、表格分类
- 标签:罕见病、患者轨迹、基准测试、疾病进展、巴西SUS、世界模型、时间到事件
- 作者:Raras AI
- 联系方式:dimas@raras.ai
- 配套架构:Raras-AI/gemeo-arch
设计动机
现有患者轨迹预测任务存在严重的事件自相关性问题:在罕见病孤儿药轨迹中,约82%的事件是相同月度配药代码的重复。模型仅复制患者上一个代码即可在简单任务上获得近完美得分,这被称为“重复事件标记膨胀指标”陷阱。RBT-v2通过以下机制确保“重复上一个”基线无法获胜:
- 核心任务仅对真实的转换点(轨迹发生变化的位置)进行评分。
- 二分类任务通过50/50的平衡设计。
- 明确提供自相关性基线作为对照。
五个任务
| 任务 | 定义 | 评估指标 | 难度原因 |
|---|---|---|---|
| T1 — 转换点的下一个过程 | 给定前缀,预测轨迹变化处(切换/间隔恢复)的下一个过程代码 | Recall@1/5, MRR | 排除重复事件,自相关性基线仅得12.4% |
| T2 — 是否会变化 | 下一个事件是变化还是延续(平衡50/50) | Balanced acc, AUROC | 多数类基线为50.0% |
| T3 — 新发病 | 预测患者从未使用过的过程的首次出现 | Recall@1/5 | 仅考虑首次出现 |
| T4 — 中断治疗 | 患者在随访期内是否会中断治疗(>6个月间隔)(平衡) | Balanced acc, AUROC | 临床上关键的放弃治疗问题,多数类基线为50.0% |
| T5 — 转换时间 | 距离下一次治疗变化的月数(右删失) | C-index, Brier | 真正的时间到事件/世界模型能力 |
基线性能
在测试集上,基于计数的方法表现强劲,击败二元模型是真正的挑战。
| 任务 | 基线 | 测试集结果 |
|---|---|---|
| T1 | 频率 Top-1 | 26.9% [25.8, 28.0] |
| T1 | 二元模型 Top-1 | 64.4% [63.2, 65.6] ← 标准线 |
| T1 | 二元模型 Top-5 | 96.0% [95.5, 96.5] |
| T1 | 重复上一个(自相关性基线) | 12.4% [11.6, 13.2] ← 设计上失败 |
| T2 | 多数类 / 总是延续 | 50.0% |
| T3 | 频率 Top-1 / Top-5 | 17.5% / 57.9% |
| T4 | 多数类 | 50.0% |
重复上一个基线仅得12.4%(而非约99%)证明了数据集的自动相关性免疫能力。
当前最佳模型 GEMEO
旗舰世界模型 gemeo-sus 在大多数新颖性和长上下文任务上领先:
| 任务 | GEMEO | 强基线 | 差距 |
|---|---|---|---|
| 新发病预测(Top-1) | 53.7% | 38.2%(频率) | +15.5 pp |
| T2 — 是否变化(AUROC) | 0.906 | 0.889(基于计数) | +0.017 |
| T5 — 12个月内转换(AUROC) | 0.827 | 0.790(基于计数) | +0.037 |
| T4 — 治疗中断(AUROC) | 0.838 | 0.696(基于计数) | +0.142 |
在单步马尔可夫转换(T1)上,基于计数的二元模型仍接近最优。
数据来源与伦理
- 来源:巴西DATASUS的APAC-SIA系统(高复杂性门诊、孤儿药授权),通过CNS哈希链接。覆盖7个巴西州,时间跨度为2017-2021年。
- 队列:44,051名拥有≥5次治疗事件的患者;涉及11种罕见病(戈谢病、MPS I/II、SMA、DMD、CF、威尔逊病、弗里德赖希共济失调、马凡综合征、NF1、雷特综合征等);包含33个不同的SIGTAP过程代码。
- 去标识化:年龄分组,仅保留州信息(无市信息),CNS哈希处理,k-匿名性≥5。
- 伦理:符合巴西CNS 466/2012 + 510/2016决议,符合巴西通用数据保护法(LGPD)。
- 数据划分:按患者级70/15/15的比例划分(训练/验证/测试),基于5个最大的州,外加一个地理外部测试集(来自其余州,用于外部有效性和公平性探测;注意外部测试集较小,约22名患者,应视为探针而非一个具有统计功效的测试)。
文件结构
tasks/ ├── T1_next_proc_transition.{train,val,test,ext_test}.jsonl ├── T2_will_change.{...}.jsonl (平衡50/50) ├── T3_new_onset.{...}.jsonl ├── T4_discontinuation.{...}.jsonl (平衡50/50) └── T5_time_to_transition.{...}.jsonl baselines.json # 所有基线结果及bootstrap置信区间 stats.json # 队列和词汇统计信息 DATASHEET.md # 完整的数据集数据表
每个样本包含:{case_id, split, orpha, sex, uf, prefix_procs:[...], target:...}。
评估指南
- 在
*.train.jsonl和*.val.jsonl上训练模型。 - 在
*.test.jsonl(以及*.ext_test.jsonl用于外部有效性)上预测。 - 使用bootstrap 95%置信区间报告上述指标。
- 必须同时报告重复上一个和二元模型基线——如果模型在T1上未能击败二元模型,则结果不被视为积极结果。
引用
bibtex @misc{rarebench_br_trajectory_v2_2026, title = {RareBench-BR Trajectory v2: An Autocorrelation-Immune Rare-Disease Patient-Trajectory Benchmark from Brazilian SUS}, author = {Timmers, Dimas and the Raras AI team}, year = {2026}, url = {https://huggingface.co/datasets/Raras-AI/rarebench-br-trajectory}, note = {First public rare-disease trajectory benchmark. CC-BY-NC 4.0.} }
⚠️ 仅供研究使用,非医疗设备。数据来源于去标识化的聚合SUS数据。




