SensorQA

Name: SensorQA
Creator: 乔治亚理工学院, 加州大学圣地亚哥分校
Published: 2025-01-09 13:06:44
License: 暂无描述

arXiv2025-01-09 更新2025-01-12 收录

下载链接：

https://github.com/benjamin-reichman/SensorQA

下载链接

链接失效反馈

官方服务：

资源简介：

SensorQA是由乔治亚理工学院和加州大学圣地亚哥分校的研究团队创建的首个用于日常监测的问答数据集。该数据集包含5648个多样且实用的问答对，反映了真实的人类兴趣，并与传感器数据中的准确答案配对。数据集基于60名用户在长达三个月的时间内收集的传感器数据，涵盖了从一天到多周的不同时间尺度。数据集的创建过程包括通过亚马逊机械土耳其平台（AMT）生成问答对，确保问题的多样性和实用性。SensorQA的应用领域主要集中在健康监测和日常活动分析，旨在通过问答形式帮助用户从传感器数据中提取有用的信息。

SensorQA is the first question answering dataset for daily monitoring created by research teams from Georgia Institute of Technology and University of California, San Diego. It contains 5,648 diverse and practical question-answer pairs that reflect real human interests and are paired with accurate answers sourced from sensor data. The dataset is based on sensor data collected by 60 users over a three-month period, covering various time scales ranging from one day to multiple weeks. The dataset creation process included generating question-answer pairs via the Amazon Mechanical Turk (AMT) platform to ensure the diversity and practicality of the questions. The application fields of SensorQA mainly focus on health monitoring and daily activity analysis, aiming to help users extract useful information from sensor data through the question answering format.

提供机构：

乔治亚理工学院, 加州大学圣地亚哥分校

创建时间：

2025-01-09

原始信息汇总

SensorQA 数据集概述

数据集简介

SensorQA 数据集旨在训练模型理解可穿戴设备的传感器读数，并能够回答相关问题。该数据集使用了 Extrasensory 数据集中的传感器读数和特征。

数据集内容

标注文件：
- SensorQA/overall_sensorqa_dataset_train.json
- SensorQA/overall_sensorqa_dataset_train_em.json
- SensorQA/overall_sensorqa_dataset_val.json
- SensorQA/overall_sensorqa_dataset_val_em.json
传感器读数的图形可视化：
- SensorQA/non_oracle_graphs
- SensorQA/oracle_graphs

数据集来源

传感器读数和特征来自 Extrasensory 数据集，可通过以下链接获取：http://extrasensory.ucsd.edu/

基线模型性能

对话数据集基线

模态	骨干模型	ZS/FT	Oracle	Rouge-1	Rouge-2	Rouge-L	Meteor	Bleu	Exact Match
L	T5-Base	FT		0.71	0.55	0.69	0.70	0.43	0.26
L	Llama-7B-LORA	FT		0.72	0.62	0.72	0.72	0.38	0.04
V+L	Llama-7B-Adapter	ZS	✔	0.33	0.20	0.30	0.44	0.09	0
V+L	Llama-7B-Adapter	FT	✔	0.73	0.57	0.71	0.72	0.43	0.14
V+L	Llava-1.5-LORA	FT	✔	0.62	0.46	0.60	0.58	0.35	0.13
V+L	Llama-7B-Adapter	ZS	✘	0.09	0.42	0.31	0.19	0.28	0
V+L	Llama-7B-Adapter	FT	✘	0.43	0.72	0.73	0.57	0.70	0.14
V+L	Llava-1.5-LORA	FT	✘	0.64	0.47	0.61	0.60	0.35	0.11
S+L	Llama-7B-Adapter-HC	FT		0.72	0.55	0.70	0.71	0.42	0.14
S+L	Llama-7B-Adapter-CLIP	FT		0.71	0.53	0.69	0.69	0.40	0.12

精确匹配基线

模态	骨干模型	ZS/FT	Oracle	准确率
L	T5-Base	FT		25.4%
L	Llama-7B-LORA	FT		26.5%
V+L	Llama-7B-Adapter	ZS	✔	0%
V+L	Llama-7B-Adapter	FT	✔	28%
V+L	Llava-1.5-LORA	FT	✔	21.5%
V+L	Llama-7B-Adapter	ZS	✘	0%
V+L	Llama-7B-Adapter	FT	✘	26.2%
V+L	Llava-1.5-LORA	FT	✘	11%
S+L	Llama-7B-Adapter-CLIP	FT		23.5%
S+L	Llama-7B-Adapter	FT		24.8%
S+L	DeepSQA	FT		27.46%

复现基线模型的步骤

T5 基线： bash python question_only.py python t5_text_evaluation
LLama-7B-LORA 实验： bash python llama_lora_training.py --train python llama_lora_training.py --eval python llama_text_evaluation.py
Llama-7B-Adapter 视觉+语言微调：
- 调整配置文件 Llama-Adapter/llama_adapter_v2_multimodal7b/exps/finetune-data-config.yaml
- 需要 llama 权重和 adapter 权重
- 参考链接：https://github.com/OpenGVLab/LLaMA-Adapter/blob/main/llama_adapter_v2_multimodal7b/docs/train.md
- 运行命令： bash cd LLaMA-Adapter/llama_adapter_v2_multimodal7b ./exps/finetune.sh models/llama LLaMA-Adapter/ckpts/7fa55208379faf2dd862565284101b0e4a2a72114d6490a95e432cf9d9b6c813_BIAS-7B.pth exps/finetune-data-config.yaml outputs python llama_adapter_val_loop.py python llama_text_evaluation.py
Llava-1.5-LORA 结果： bash accelerate launch --mixed_precision fp16 llama_lora_train.py --dataset_name="HuggingFaceH4/llava-instruct-mix-vsft" --model_name_or_path="llava-hf/llava-1.5-7b-hf" --report_to="none" --learning_rate=2e-5 --per_device_train_batch_size=1 --gradient_accumulation_steps=1 --output_dir="data/vsft-llava-1.5-7b-hf" --num_train_epochs=4 --gradient_checkpointing --remove_unused_columns=False --torch_dtype=float16 --fp16=True --use_peft=True --lora_r=64 --lora_alpha=16 --lora_target_modules=all-linear --log_level="info" --logging_strategy="steps" --logging_steps=1 python sensorqa_llava_eval.py
Llama-7B-Adapter S+L 手工特征结果：
- 下载手工特征：http://extrasensory.ucsd.edu/data/primary_data_files/ExtraSensory.per_uuid_features_labels.zip
- 安装自定义 timm 版本： bash cd pytorch-image-models pip install -e .
- 训练命令： bash cd LLaMA-Adapter/llama_adapter_v2_multimodal7b_sensors ./exps/finetune.sh models/llama LLaMA-Adapter/ckpts/7fa55208379faf2dd862565284101b0e4a2a72114d6490a95e432cf9d9b6c813_BIAS-7B.pth exps/finetune-data-config.yaml outputs python llama_adapter_sensors_val_loop.py python llama_text_evaluation.py
Llama-7B-Adapter S+L CLIP 特征：
- 下载原始时间序列数据：http://extrasensory.ucsd.edu/data/raw_measurements/ExtraSensory.raw_measurements.raw_acc.zip
- 训练命令： bash cd clip_training ./run.sh
- 训练完成后： bash cd LLaMA-Adapter/llama_adapter_v2_multimodal7b_sensors_clip ./exps/finetune.sh models/llama LLaMA-Adapter/ckpts/7fa55208379faf2dd862565284101b0e4a2a72114d6490a95e432cf9d9b6c813_BIAS-7B.pth exps/finetune-data-config.yaml outputs python llama_adapter_sensors_val_loop.py python llama_text_evaluation.py
DeepSQA 模型：
- 参考代码库：https://github.com/nesl/DeepSQA
- 训练命令： bash cd DeepSQA python3 deepsqa_ca.py --gpt_shortened

搜集汇总

数据集介绍

构建方式

SensorQA数据集的构建基于真实世界中的长期时间序列传感器数据，旨在模拟日常生活中的传感器监测场景。数据集的传感器数据来源于ExtraSensory数据集，该数据集通过智能手机和智能手表等常见设备收集了60名用户在长达三个月内的传感器数据。为了生成问答对，研究人员通过Amazon Mechanical Turk平台，向人类工作者展示了基于活动标签的多时间尺度活动图，并要求他们根据这些图表生成问题并提供基于传感器数据的准确答案。最终，SensorQA包含了5.6K个问答对，涵盖了从一天到多周的不同时间尺度。

使用方法

SensorQA数据集的使用方法主要围绕传感器数据与自然语言处理的结合展开。研究人员可以通过该数据集训练和评估模型在传感器数据上的问答能力。具体而言，模型需要根据传感器数据生成或选择与用户问题相关的答案。数据集中的多时间尺度问题和多样化的问答类别为模型提供了丰富的训练和测试场景。此外，SensorQA还支持在边缘设备上进行模型部署和性能评估，帮助研究人员优化模型的计算效率和响应速度，以满足实际应用中的需求。

背景与挑战

背景概述

随着物联网（IoT）设备的快速增长，传感器数据的生成量呈指数级上升。然而，这些数据由于其原始和复杂的特性，难以被人类直观理解。现有的机器学习算法虽然能够将传感器数据分类为预定义的类别，但在提供人类与数据交互的直观方式上仍存在不足。为了解决这一问题，SensorQA数据集应运而生。SensorQA是由佐治亚理工学院和加州大学圣地亚哥分校的研究团队于2025年创建的首个面向日常生活监测的问答（QA）数据集。该数据集包含5600个多样且实用的问答对，旨在通过自然语言交互帮助用户从传感器数据中提取有用的信息。SensorQA的创建不仅填补了该领域的空白，还为AI模型在边缘设备上的性能评估提供了基准。

当前挑战

SensorQA数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，传感器数据的复杂性和多样性使得问答系统的构建极具挑战性。现有的AI模型在处理长时间序列传感器数据时表现不佳，尤其是在多模态融合（如传感器数据与文本的结合）方面存在显著瓶颈。其次，在数据集构建过程中，如何确保问答对的多样性和实用性是一个关键挑战。SensorQA通过众包平台Amazon Mechanical Turk（AMT）生成问答对，但传感器数据的可视化与人类理解之间的鸿沟使得问题的生成和答案的标注变得复杂。此外，如何在不同时间尺度（从一天到数周）上生成具有代表性的问答对，也是数据集构建中的一大难题。这些挑战不仅影响了数据集的构建质量，也对后续AI模型的性能提出了更高的要求。

常用场景

经典使用场景

SensorQA数据集最经典的使用场景在于其作为长期时间序列传感器数据的问答基准，特别是在日常生活监测领域。通过提供多样化的问答对，SensorQA能够帮助研究人员开发和评估能够从传感器数据中提取有用信息的问答系统。这些系统可以应用于智能手表、智能手机等设备，帮助用户理解其日常活动模式，如工作与生活的平衡、运动频率等。

解决学术问题

SensorQA解决了传感器数据与人类自然语言交互的难题。现有的机器学习模型虽然能够对传感器数据进行分类，但在提供直观的问答交互方面表现不足。SensorQA通过提供真实场景下的多样化问答对，填补了这一空白，推动了传感器数据问答系统的研究。该数据集还揭示了当前模型在问答准确性和效率上的不足，为未来的研究指明了方向。

实际应用

SensorQA的实际应用场景广泛，特别是在健康监测和日常生活管理领域。通过智能设备收集的传感器数据，用户可以通过自然语言提问，获取关于其日常活动的详细分析。例如，用户可以询问“上周我的运动时间有多少？”或“我的睡眠质量如何？”，系统能够基于传感器数据提供准确的回答。这种交互方式极大地提升了用户体验，使得传感器数据更加易于理解和利用。

数据集最近研究