rarebench-br-trajectory

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/Raras-AI/rarebench-br-trajectory

下载链接

链接失效反馈

官方服务：

资源简介：

RareBench-BR Trajectory v2 (RBT-v2) 是首个专为罕见病设计的、具有自相关免疫性的患者治疗轨迹预测基准数据集，旨在解决电子健康记录（EHR）数据中的事件自相关性问题，避免模型评估指标虚高。数据来源于巴西统一医疗系统（SUS）的高复杂度门诊和孤儿药授权数据（DATASUS APAC-SIA），涵盖2017年至2021年巴西7个州的真实世界数据，包含44,051名至少有5个治疗事件的罕见病患者轨迹，覆盖戈谢病、黏多糖贮积症I/II型等11种罕见病，涉及33种SIGTAP医疗程序代码。数据经过严格的脱敏处理（如年龄分组、州级信息保留、CNS哈希、k-匿名性≥5），符合巴西伦理法规和通用数据保护法。数据集定义了五个核心预测任务：预测下一个医疗程序代码（T1）、预测事件变化或延续（T2）、预测新医疗程序首次发生（T3）、预测治疗中断（T4）、预测治疗变化时间（T5）。它提供了强基线结果，要求模型评估必须超越二元模型基线，并采用患者级别的训练/验证/测试划分，以及一个地理外部测试集用于评估模型外部有效性和公平性。适用于时间序列预测、表格分类、疾病进展建模等任务，遵循CC-BY-NC 4.0许可，仅限研究使用。

RareBench-BR Trajectory v2 (RBT-v2) is the first benchmark dataset designed specifically for rare diseases, featuring self-correlation immunity for patient treatment trajectory prediction. It aims to address the issue of event autocorrelation in electronic health record (EHR) data (where approximately 82% of events are repeated monthly medication codes in rare disease trajectories), which can inflate model evaluation metrics. RBT-v2 ensures that simple repeat last event baseline models cannot gain an advantage through carefully designed tasks, providing a more realistic and reliable assessment of model performance. The data is sourced from high-complexity outpatient and orphan drug authorization records (DATASUS APAC-SIA) of Brazils Unified Health System (SUS), covering real-world data from 7 Brazilian states between 2017 and 2021. It includes trajectories of 44,051 rare disease patients with at least 5 treatment events, covering 11 rare diseases such as Gaucher disease, mucopolysaccharidosis types I/II, spinal muscular atrophy, and others, involving 33 different SIGTAP medical procedure codes. The data is rigorously anonymized (with age grouping, state-level information only, CNS hashing, k-anonymity ≥5), complying with Brazilian ethical regulations and general data protection laws. The dataset defines five core prediction tasks: 1) predicting the next medical procedure code at trajectory change points (T1); 2) predicting whether the next event is a change or continuation (T2, balanced binary classification); 3) predicting the first occurrence of a medical procedure the patient has never had (T3); 4) predicting treatment interruption (>6-month gap, T4, balanced binary classification); 5) predicting the time until the next treatment change (T5, time-to-event data). It provides strong baseline results based on frequency and binary models, explicitly requiring that model evaluations must surpass binary model baselines (especially for T1) to be considered valid. The data is split at the patient level into 70/15/15 (train/validation/test) and includes a small geographic external test set based on different states to probe model external validity and fairness. The dataset is suitable for tasks such as time series forecasting, tabular classification, disease progression modeling, and world model construction, serving as a valuable resource for evaluating long-term treatment trajectory prediction models for rare disease patients. It follows the CC-BY-NC 4.0 license and is for research use only.

创建时间：

2026-05-20

原始信息汇总

数据集概述

RareBench-BR Trajectory v2 (RBT-v2) 是一个专为罕见病患者轨迹预测设计的基准数据集，其核心特点是具有自相关性免疫能力。数据集来源于巴西统一医疗系统（DATASUS）中44,051名中枢神经系统相关罕见病患者的真实治疗轨迹。

数据集基本信息

许可证：CC-BY-NC 4.0
语言：葡萄牙语、英语
规模：100K到1M个样本
任务类型：时间序列预测、表格分类
标签：罕见病、患者轨迹、基准测试、疾病进展、巴西SUS、世界模型、时间到事件
作者：Raras AI
联系方式：dimas@raras.ai
配套架构：Raras-AI/gemeo-arch

设计动机

现有患者轨迹预测任务存在严重的事件自相关性问题：在罕见病孤儿药轨迹中，约82%的事件是相同月度配药代码的重复。模型仅复制患者上一个代码即可在简单任务上获得近完美得分，这被称为“重复事件标记膨胀指标”陷阱。RBT-v2通过以下机制确保“重复上一个”基线无法获胜：

核心任务仅对真实的转换点（轨迹发生变化的位置）进行评分。
二分类任务通过50/50的平衡设计。
明确提供自相关性基线作为对照。

五个任务

任务	定义	评估指标	难度原因
T1 — 转换点的下一个过程	给定前缀，预测轨迹变化处（切换/间隔恢复）的下一个过程代码	Recall@1/5, MRR	排除重复事件，自相关性基线仅得12.4%
T2 — 是否会变化	下一个事件是变化还是延续（平衡50/50）	Balanced acc, AUROC	多数类基线为50.0%
T3 — 新发病	预测患者从未使用过的过程的首次出现	Recall@1/5	仅考虑首次出现
T4 — 中断治疗	患者在随访期内是否会中断治疗（>6个月间隔）（平衡）	Balanced acc, AUROC	临床上关键的放弃治疗问题，多数类基线为50.0%
T5 — 转换时间	距离下一次治疗变化的月数（右删失）	C-index, Brier	真正的时间到事件/世界模型能力

基线性能

在测试集上，基于计数的方法表现强劲，击败二元模型是真正的挑战。

任务	基线	测试集结果
T1	频率 Top-1	26.9% [25.8, 28.0]
T1	二元模型 Top-1	64.4% [63.2, 65.6] ← 标准线
T1	二元模型 Top-5	96.0% [95.5, 96.5]
T1	重复上一个（自相关性基线）	12.4% [11.6, 13.2] ← 设计上失败
T2	多数类 / 总是延续	50.0%
T3	频率 Top-1 / Top-5	17.5% / 57.9%
T4	多数类	50.0%

重复上一个基线仅得12.4%（而非约99%）证明了数据集的自动相关性免疫能力。

当前最佳模型 GEMEO

旗舰世界模型 gemeo-sus 在大多数新颖性和长上下文任务上领先：

任务	GEMEO	强基线	差距
新发病预测（Top-1）	53.7%	38.2%（频率）	+15.5 pp
T2 — 是否变化（AUROC）	0.906	0.889（基于计数）	+0.017
T5 — 12个月内转换（AUROC）	0.827	0.790（基于计数）	+0.037
T4 — 治疗中断（AUROC）	0.838	0.696（基于计数）	+0.142

在单步马尔可夫转换（T1）上，基于计数的二元模型仍接近最优。

数据来源与伦理

来源：巴西DATASUS的APAC-SIA系统（高复杂性门诊、孤儿药授权），通过CNS哈希链接。覆盖7个巴西州，时间跨度为2017-2021年。
队列：44,051名拥有≥5次治疗事件的患者；涉及11种罕见病（戈谢病、MPS I/II、SMA、DMD、CF、威尔逊病、弗里德赖希共济失调、马凡综合征、NF1、雷特综合征等）；包含33个不同的SIGTAP过程代码。
去标识化：年龄分组，仅保留州信息（无市信息），CNS哈希处理，k-匿名性≥5。
伦理：符合巴西CNS 466/2012 + 510/2016决议，符合巴西通用数据保护法（LGPD）。
数据划分：按患者级70/15/15的比例划分（训练/验证/测试），基于5个最大的州，外加一个地理外部测试集（来自其余州，用于外部有效性和公平性探测；注意外部测试集较小，约22名患者，应视为探针而非一个具有统计功效的测试）。

文件结构

tasks/ ├── T1_next_proc_transition.{train,val,test,ext_test}.jsonl ├── T2_will_change.{...}.jsonl (平衡50/50) ├── T3_new_onset.{...}.jsonl ├── T4_discontinuation.{...}.jsonl (平衡50/50) └── T5_time_to_transition.{...}.jsonl baselines.json # 所有基线结果及bootstrap置信区间 stats.json # 队列和词汇统计信息 DATASHEET.md # 完整的数据集数据表

每个样本包含：{case_id, split, orpha, sex, uf, prefix_procs:[...], target:...}。

评估指南

在 *.train.jsonl 和 *.val.jsonl 上训练模型。
在 *.test.jsonl（以及 *.ext_test.jsonl 用于外部有效性）上预测。
使用bootstrap 95%置信区间报告上述指标。
必须同时报告重复上一个和二元模型基线——如果模型在T1上未能击败二元模型，则结果不被视为积极结果。

引用

bibtex @misc{rarebench_br_trajectory_v2_2026, title = {RareBench-BR Trajectory v2: An Autocorrelation-Immune Rare-Disease Patient-Trajectory Benchmark from Brazilian SUS}, author = {Timmers, Dimas and the Raras AI team}, year = {2026}, url = {https://huggingface.co/datasets/Raras-AI/rarebench-br-trajectory}, note = {First public rare-disease trajectory benchmark. CC-BY-NC 4.0.} }

⚠️ 仅供研究使用，非医疗设备。数据来源于去标识化的聚合SUS数据。

搜集汇总

数据集介绍

构建方式

RareBench-BR Trajectory v2（RBT-v2）是基于巴西统一医疗系统（DATASUS）中罕见病患者真实治疗记录构建的首个自相关免疫基准数据集。研究者从2017至2021年间七个巴西联邦单元的APAC-SIA高复杂度门诊及孤儿药授权数据中，通过CNS哈希链接并经过严格脱敏处理，筛选出44,051名至少拥有五次治疗事件的罕见病患者，涵盖戈谢病、脊髓性肌萎缩症等11种罕见疾病及33种SIGTAP程序代码。数据按患者层面以70/15/15比例划分为训练集、验证集和测试集，并额外构建了一个来自未参与训练联邦单元的地理外部测试集，用于评估模型的外部有效性与公平性。

特点

RBT-v2的核心创新在于其自相关免疫设计，针对电子健康记录中约82%事件为重复代码的普遍问题，该基准通过只对轨迹发生实质性变化的转移点进行评分、将二分类任务平衡为50/50以及提供显式的重复-最后基线来确保简单复制策略无法取得高分。基准包含五项难度递进的任务：基于转移点的下一个程序预测、事件是否变化判别、新发程序预测、治疗中断预测以及转移时间预测，分别从不同角度评估模型的序列建模、时序推理和临床决策支持能力。显著特点是重复-最后基线在T1任务上仅取得12.4%的召回率，而基于计数的二元基线则达到64.4%，这明确指示了模型必须超越简单统计基准而非仅依赖自相关性。

使用方法

研究者可按照标准流程使用该数据集：首先在T1至T5各任务的训练集和验证集上训练模型，然后在测试集和地理外部测试集上进行预测，并根据各任务指定的评价指标（如Recall@1/5、MRR、平衡准确率、AUROC、C-index、Brier分数等）报告结果，同时必须附带95%自助法置信区间。特别要求是，在T1任务上必须同时报告重复-最后基线和二元基线作为对照，任何未能超越二元基线的结果均不被视为积极结论。数据集以JSONL格式提供，每个样本包含患者标识、分割类型、罕见病分类、性别、联邦单元、前缀程序序列及目标标签等字段，便于直接加载并适配到常见的序列预测和时间序列模型框架中。

背景与挑战

背景概述

在罕见病研究领域，患者病程轨迹的预测对治疗优化与资源分配至关重要，然而现有电子健康病历（EHR）数据集普遍面临事件自相关（autocorrelation）的严重干扰，即大部分事件为重复的用药编码，导致简单复制历史记录的模型即可获得近乎完美的性能。为填补这一空白，Raras AI团队于2026年发布了RareBench-BR Trajectory v2（RBT-v2），这是首个针对罕见病患者轨迹设计的自相关免疫基准数据集。该数据集源自巴西统一医疗系统（DATASUS）中44,051例罕见病真实治疗轨迹，涵盖11种罕见疾病及33种诊疗程序代码，由Dimas Timmers等人构建，旨在为疾病进展预测、时间序列建模等领域提供可靠评估框架。RBT-v2的创新性在于其五大任务设计引入了过渡点预测、新发事件识别等挑战，并明确要求模型需击败基线中的二元模型（bigram）才能被视为有效结果，这一设计显著提升了基准的严谨性与领域影响力。

当前挑战

该数据集所解决的核心领域挑战在于消除事件自相关对轨迹预测的干扰，罕见病轨迹中约82%的事件为重复编码，传统预测任务易被重复基线模型轻易攻破。RBT-v2通过仅在轨迹变化点（transition points）评估性能、构建平衡的二分类任务（如是否会改变治疗、是否停药）等方式，强制模型学习真正的临床模式而非记忆近因。数据集构建过程中面临多重困难：一是罕见病患者样本稀疏，需从460万条授权记录中筛选出44,051条完整轨迹；二是数据脱敏需兼顾隐私保护与实用性，对年龄分桶、地理信息仅保留州级别，并通过k-匿名性（≥5）确保无法重识别；三是设计地理外部测试集（ext_test）以验证模型泛化能力，但该测试集仅含22例患者，统计效力有限，需谨慎解释。此外，强基线（bigram）在部分任务上表现接近最优，表明模型需在长上下文与新颖性预测上取得实质性突破，这为后续研究划定了清晰且具挑战性的基准线。

常用场景

经典使用场景

RareBench-BR Trajectory v2是首个针对罕见病患者轨迹预测设计的抗自相关基准数据集。其核心使用场景涵盖五大任务：在治疗轨迹发生实际变化时预测下一医疗程序（T1），判断患者下一步是否会发生治疗变更（T2），预测从未出现过的医疗程序首次发作（T3），评估治疗中断风险（T4），以及预测治疗变更的时间间隔（T5）。该数据集特别适用于构建和评估能够捕捉罕见病治疗动态变化的时序预测模型，为世界模型、生存分析等前沿研究方向提供了标准化的评测平台。

实际应用

在实际医疗场景中，该数据集支持多项关键临床决策辅助功能：智能预警罕见病患者可能出现的治疗中断风险，辅助医生在新发症状出现前及时调整治疗方案，以及预测罕见病治疗路径的演变趋势。基于巴西SUS系统的真实世界数据，该基准可用于训练和验证部署在临床信息系统中的预测模型，帮助医疗资源分配优化、个性化治疗方案制定，以及罕见病管理策略的循证决策，显著提升罕见病患者的照护质量和治疗连续性。

衍生相关工作

RBT-v2直接催生了GEMEO世界模型架构（Raras-AI/gemeo-arch），该模型充分利用复发感知机制，在新发预测（53.7%）、治疗中断预测（AUROC 0.838）等富含上下文的复杂任务上显著超越强基线。同时，数据集提供了可复现的计数基线（频率模型、二元模型、自相关预测器），为后续研究建立了清晰的参照系。该基准还衍生出地理外推测试集，推动了对模型在不同区域医疗系统间泛化能力的研究，为罕见病预测模型的公平性和鲁棒性评估开辟了新方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集