HEARTS

github2026-03-16 更新2026-03-15 收录

下载链接：

https://github.com/yang-ai-lab/HEARTS

下载链接

链接失效反馈

官方服务：

资源简介：

HEARTS（健康时间序列推理）是一个基准和评估框架，用于测试LLM代理在真实世界健康时间序列数据上的推理能力。它超越了狭窄的预测和简单问答，评估了四个层次的能力：感知、推理、生成和演绎。数据集包含16个数据集，涵盖12个健康领域，20种信号模态，110个任务和20,226个测试样本。

HEARTS (Health Time-Series Reasoning) is a benchmark and evaluation framework for testing the reasoning capabilities of LLM Agents on real-world health time-series data. Moving beyond narrow predictive tasks and simple question answering, it evaluates capabilities across four hierarchical levels: perception, reasoning, generation, and deduction. This framework includes 16 constituent datasets covering 12 health domains, 20 signal modalities, 110 tasks, and 20,226 test samples.

创建时间：

2026-02-19

原始信息汇总

HEARTS 数据集概述

数据集基本信息

数据集名称：HEARTS (Health Reasoning over Time Series)
核心定位：一个用于评估大语言模型（LLM）代理对真实世界健康时间序列数据进行推理能力的基准和评估框架。
官方论文：https://arxiv.org/abs/2603.06638
官方网站：https://yang-ai-lab.github.io/HEARTS
数据地址：https://huggingface.co/datasets/yang-ai-lab/HEARTS

基准构成

涵盖数据集：16个
健康领域：12个（包括运动、代谢健康、手术、睡眠、呼吸、情绪、眼科学、眼动、行为、语音、手势、COVID咳嗽）
信号模态：20种
评估任务：110个
测试样本：20,226个

核心评估能力

HEARTS 评估四个层次化的能力：

感知：信号层面的测量和特征提取。
推断：事件定位、生理学分类和个体层面分析。
生成：预测、插值和跨模态转换。
演绎：时间排序和纵向轨迹分析。

项目特点

模块化架构：包含实验 (exp/)、代理 (agents/) 和共享工具 (utils/)。
任务多样性：支持感知、推断、生成和演绎任务。
代理灵活性：内置支持不同的代理架构（如 CodeAct）。
模型支持：支持主流 LLM 提供商接口（OpenAI、AWS Bedrock、Google Gemini、XAI）。
可复现性：在固定的测试案例上执行“冻结”实验，确保基准测试的一致性。

主要发现

LLM 在许多健康推理任务上表现不及专门的时间序列模型，且在 HEARTS 上的表现与广泛的“通用推理”指标仅弱相关。
模型常依赖低复杂度启发式方法（复制/插值/规则捷径），而非深度时间推理。
性能随序列长度和采样频率增加而下降，不同领域和输入模态存在共享的、与模型无关的难度排序。
同一系列的模型表现出相似的性能模式，表明仅靠规模扩展是不够的。
时间序列的输入格式（文本/图像/原始文件）主要影响绝对性能，而相对任务难度在不同格式间保持一致。

项目结构

agents/：代理实现。
exp/：实验定义（数据集和任务）。
utils/：核心工具。
run_exp_freeze.py：运行冻结实验的主要脚本。

快速开始

主要入口点是 run_exp_freeze.py，用于运行预定义的固定测试案例以确保可复现性。

从 https://huggingface.co/datasets/yang-ai-lab/HEARTS 下载固定测试案例。
运行命令：uv run run_exp_freeze.py --fix-test-cases-dir /path/to/test_cases。

引用

若在研究中使用 HEARTS，请引用： bibtex @article{hearts2026, title={HEARTS: Benchmarking LLM Reasoning on Health Time Series}, author={Sirui Li and Shuhan Xiao and Mihir Joshi and Ahmed Metwally and Daniel McDuff and Wei Wang and Yuzhe Yang}, journal={arXiv preprint arXiv:2603.06638}, year={2026} }

搜集汇总

数据集介绍

构建方式

在医疗时间序列分析领域，构建一个能够全面评估模型推理能力的基准数据集至关重要。HEARTS数据集通过整合16个公开可用的健康数据集，覆盖了运动、代谢健康、手术、睡眠、呼吸、情绪、眼科、眼动、行为、语音、手势及COVID咳嗽等12个健康领域，涉及20种信号模态。数据集的构建过程精心设计了110项任务，涵盖感知、推断、生成与演绎四个层次的能力评估，并确保了20,226个测试样本在时间跨度、序列长度和采样频率上的多样性，从而形成了一个统一且具有挑战性的评估环境。

特点

HEARTS数据集的核心特点在于其层次化的任务设计，这些任务从基础的信号感知延伸到复杂的时序演绎推理，全面覆盖了健康时间序列分析中的关键能力。数据集支持多种输入格式，包括文本、图像及原始文件，确保了评估的灵活性与广泛适用性。其模块化架构允许轻松集成新的数据集、任务和智能体，而固定的测试用例布局则保障了实验的可重复性。此外，数据集揭示了大型语言模型在长序列和高频数据上性能下降的普遍现象，为模型改进提供了明确方向。

使用方法

使用HEARTS数据集进行基准评估，首先需要通过uv工具同步项目依赖并配置模型供应商的API凭证。研究人员可通过运行`run_exp_freeze.py`脚本，指定包含固定测试用例的目录来执行可重复的实验。实验配置支持通过YAML文件或命令行参数灵活调整数据集、任务、模型及并发作业数等关键参数。执行后，结果将以JSON格式自动保存，包含每个测试案例的详细信息与综合评估指标，同时智能体的完整执行日志也会被记录，便于深入分析与调试。

背景与挑战

背景概述

在数字健康与人工智能交叉领域，时间序列数据的深度推理是推动精准医疗发展的核心挑战。HEARTS（Health Reasoning over Time Series）数据集由Yang AI Lab等研究团队于2026年创建，旨在构建一个统一的基准测试框架，以评估大型语言模型在复杂健康时间序列数据上的多层次推理能力。该数据集整合了来自运动、代谢健康、睡眠、呼吸等12个健康领域的16个异构数据集，涵盖20种信号模态与110项具体任务，其核心研究问题聚焦于突破传统预测与简单问答的局限，系统检验模型在感知、推断、生成与演绎四个层级上的综合性能。HEARTS的建立为健康时序数据分析提供了标准化评估体系，显著推动了可解释人工智能在临床决策支持系统中的发展。

当前挑战

HEARTS数据集所针对的健康时间序列推理领域，面临多模态异构数据融合的固有挑战。健康信号在模态、频率、序列长度和时间跨度上存在极大差异，例如从日常聚合数据到48kHz高频波形，要求模型具备跨域泛化与深层时序关系建模能力。现有大型语言模型在处理此类数据时，常依赖低复杂度启发式策略而非深度时序推理，且在长序列与高采样频率任务上表现显著退化。在数据集构建过程中，挑战主要源于大规模多源数据的对齐与标注，需在保护隐私的前提下整合临床记录与传感器时序，并设计涵盖感知至演绎的层次化任务体系，以确保评估的严谨性与生态效度。

常用场景

经典使用场景

在医疗时间序列数据分析领域，HEARTS数据集为评估大型语言模型（LLM）在复杂健康数据上的推理能力提供了标准化基准。该数据集整合了来自16个不同健康领域的多模态时间序列信号，涵盖从感知到演绎的四个层次化能力评估。研究者通常利用HEARTS构建统一的实验框架，通过其预设的110项任务对模型在生理信号测量、事件定位、时序预测等场景下的表现进行系统化测试，从而揭示模型在跨域健康数据分析中的泛化能力与局限性。

解决学术问题

HEARTS数据集主要致力于解决医疗人工智能研究中模型泛化能力评估不足的学术难题。传统方法往往局限于单一模态或狭窄任务，而HEARTS通过整合心电图、血糖监测、语音等多达20种信号模态，构建了覆盖长期纵向分析到高频率瞬时推理的多样化任务集。这使研究者能够系统探究模型在异质健康数据上的鲁棒性，识别模型依赖表面启发式策略而非深层时序推理的普遍现象，并为理解模型能力与输入格式、序列长度等因素的关联提供了实证基础。

衍生相关工作

围绕HEARTS数据集，已衍生出多项聚焦于医疗时序推理的经典研究工作。例如，基于其模块化架构开发的CodeAct智能体框架，通过可执行代码交互提升了模型在信号处理任务中的操作性；同时，研究团队利用该基准开展了大规模模型能力对比分析，揭示了专用时序模型与通用大语言模型在健康推理任务中的性能差异。这些工作进一步推动了跨模态健康数据表示学习、时序推理评估方法论以及轻量化医疗智能体设计等方向的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集