EngineMT-QA
收藏arXiv2025-06-25 更新2025-06-27 收录
下载链接:
https://pandalin98.github.io/itformer site/
下载链接
链接失效反馈官方服务:
资源简介:
EngineMT-QA是一个大规模的多任务、时序-文本问答数据集,由上海交通大学航空航天学院、上海创新研究院和复旦大学数据科学学院创建。该数据集基于真实的航空发动机运行和维护场景构建,包含超过11万个问答对,来源于32个传感器通道。数据集涵盖四个关键任务:理解、感知、推理和决策。EngineMT-QA旨在促进时间序列数据与自然语言之间的研究,为现实世界应用中的智能和可解释的解决方案铺平道路。
EngineMT-QA is a large-scale multi-task time-series-text question answering dataset developed by the School of Aeronautics and Astronautics of Shanghai Jiao Tong University, Shanghai Research Institute for Innovation, and the School of Data Science of Fudan University. Built on real aero-engine operation and maintenance scenarios, the dataset contains more than 110,000 question-answer pairs sourced from 32 sensor channels, and covers four core tasks: comprehension, perception, reasoning and decision-making. EngineMT-QA aims to advance research on the integration of time-series data and natural language, and pave the way for intelligent and interpretable solutions in real-world applications.
提供机构:
上海交通大学航空航天学院, 上海创新研究院, 复旦大学数据科学学院
创建时间:
2025-06-25
搜集汇总
数据集介绍

构建方式
EngineMT-QA数据集的构建基于真实航空发动机运行与维护场景,采用多模态融合方法整合32个传感器通道的高维时间序列信号与自然语言查询。研究团队首先从NASA的N-MAPSS基准数据集中提取原始飞行数据,通过物理模型分析关键参数趋势,并利用大型语言模型生成语义描述。随后由领域专家设计涵盖理解、感知、推理和决策四类任务的11万组问答对,每对数据均经过严格的物理模型验证与专家标注,确保时间序列特征与语言描述间的精确映射。
特点
该数据集具有三大核心特征:多尺度时间依赖性建模能力,通过600时间步长×32维特征的时序片段捕捉发动机状态演变;任务导向的层次化语义结构,将抽象信号特征转化为可解释的维护决策语言;跨模态对齐的复杂性,包含单周期健康诊断与多周期退化预测等需联合分析时序与文本的复合任务。特别值得注意的是其四类任务设计——理解任务关注传感器关系解析,感知任务要求故障组件定位,推理任务需预测失效概率区间,决策任务则生成可执行维护方案,全面覆盖工业场景中的认知需求。
使用方法
使用EngineMT-QA时建议采用三阶段流程:首先通过PatchTST等时序编码器提取信号特征,再采用ITFormer框架的Time Token Position Encoding模块对齐时间步、通道和片段级位置信息。对于自然语言处理,推荐将查询语句与Learnable Instruct Tokens拼接后输入冻结的大语言模型。关键步骤在于应用Instruct Time Attention机制实现时序-文本特征的动态融合,最终通过Time Token as Language策略将时序语义转化为语言兼容的标记。评估时需注意区分生成型任务(使用BLEU-4和Rouge-L)与判别型任务(采用Accuracy/F1),完整实现代码已开源供研究复现。
背景与挑战
背景概述
EngineMT-QA数据集由上海交通大学的研究团队于2025年提出,旨在解决时间序列数据与自然语言交互的关键挑战。该数据集基于真实航空发动机运行与维护场景构建,包含超过11万条问答对,覆盖理解、感知、推理和决策四大任务。作为首个大规模、多任务的时间序列-文本问答数据集,EngineMT-QA填补了传统单模态时间序列分析与自然语言处理之间的鸿沟,为多模态人工智能研究提供了重要基准。其创新性体现在将高维时序信号与复杂语义查询相结合,推动了工业监测、医疗诊断等领域的智能交互系统发展。
当前挑战
EngineMT-QA面临的核心挑战包括两方面:领域问题层面,时间序列数据具有高维度、多尺度依赖和抽象语义特征,传统方法难以有效捕捉其与自然语言的复杂关联;构建过程层面,需解决传感器信号与语言问句的语义对齐难题,包括多通道时序特征的融合表示、跨模态注意力机制设计,以及真实工业场景中数据噪声与标注一致性问题。此外,数据集中维护决策类问题涉及专业领域知识,要求问答模型兼具数值模式识别和因果推理能力,这对现有多模态模型提出了更高要求。
常用场景
经典使用场景
EngineMT-QA数据集在航空发动机健康监测领域具有广泛的应用价值,尤其在多模态时间序列与自然语言交互任务中表现突出。该数据集通过整合32个传感器通道的110k问答对,覆盖了理解、感知、推理和决策四大任务,为研究人员提供了一个标准化的测试平台。在经典使用场景中,EngineMT-QA常用于评估模型对发动机运行状态的动态解析能力,例如通过分析单周期传感器数据识别异常振动模式,或基于多周期趋势预测剩余使用寿命。
衍生相关工作
EngineMT-QA催生了多个标志性研究成果。其直接衍生的ITFormer框架成为时序-语言跨模态研究的基线模型,相关技术被拓展至医疗诊断(如ECG报告生成)和气候分析领域。后续工作Time-LLM和AutoTime均以该数据集为基准,分别提出了时序特征重参数化和自适应提示学习方法。数据集构建方法论还被迁移至工业设备监测领域,催生了RotaryMT-QA等垂直领域数据集。
数据集最近研究
最新研究方向
随着多模态人工智能技术的快速发展,时间序列数据与自然语言的融合成为工业监测、医疗诊断和气候研究等领域的前沿课题。EngineMT-QA作为首个大规模、多任务的时间序列问答数据集,为这一跨模态研究提供了标准化基准。近期研究聚焦于开发高效的时序-文本对齐模型,如ITFormer框架通过时间标记位置编码和可学习指令标记等技术,实现了时序特征与语言模型的深度融合。该方向与工业4.0中的智能运维、医疗AI中的诊断辅助等热点应用紧密结合,其突破将显著提升复杂时序数据的交互式分析能力,推动多模态推理技术在关键领域的落地应用。
相关研究论文
- 1ITFormer: Bridging Time Series and Natural Language for Multi-Modal QA with Large-Scale Multitask Dataset上海交通大学航空航天学院, 上海创新研究院, 复旦大学数据科学学院 · 2025年
以上内容由遇见数据集搜集并总结生成



