SensorBench

Name: SensorBench
Creator: 加州大学洛杉矶分校
Published: 2024-10-15 01:21:39
License: 暂无描述

arXiv2024-10-15 更新2024-10-16 收录

下载链接：

https://github.com/nesl/LLM_sensor_processing

下载链接

链接失效反馈

官方服务：

资源简介：

SensorBench是由加州大学洛杉矶分校的研究团队创建的一个综合性基准数据集，旨在评估大型语言模型（LLMs）在基于编码的传感器数据处理中的性能。该数据集包含多种真实世界的传感器数据集，涵盖了从预处理到特征提取等多个任务。数据集的创建过程结合了MATLAB教程和已有的数字信号处理（DSP）教材，确保了任务的实际应用性和学术验证性。SensorBench的应用领域广泛，包括工程、医疗和工业环境中的传感器数据处理，旨在解决LLMs在复杂传感器数据处理任务中的性能评估问题。

SensorBench is a comprehensive benchmark dataset developed by a research team at the University of California, Los Angeles (UCLA), which is designed to evaluate the performance of large language models (LLMs) in coding-based sensor data processing. This dataset includes a diverse set of real-world sensor datasets, covering a wide range of tasks spanning from preprocessing to feature extraction. The development of SensorBench integrates MATLAB tutorials and established digital signal processing (DSP) textbooks, ensuring the practical applicability and academic rigor of the included tasks. SensorBench has broad application domains, including sensor data processing in engineering, medical and industrial settings, and it aims to address the critical need for evaluating LLMs' performance on complex sensor data processing tasks.

提供机构：

加州大学洛杉矶分校

创建时间：

2024-10-15

原始信息汇总

SensorBench: Benchmarking LLMs in Coding-Based Sensor Processing

数据集概述

SensorBench 是一个用于评估大型语言模型（LLMs）在基于编码的传感器处理任务中的性能的基准数据集。该数据集旨在通过提供多种传感器数据处理问题，测试和比较不同模型的表现。

数据集组成

传感器数据类型：包括心电图（ECG）、步态（gait）、光电容积图（PPG）、语音（speech）等多种类型的传感器数据。
处理问题类型：涵盖去噪、外推、高斯噪声、心率检测、插值、运动噪声、电源线噪声、步态延迟检测、步态周期检测、重采样、回声、Siren噪声、电话铃声等多种信号处理问题。

数据集下载

基准数据集：可以从这里下载并解压到主文件夹。
完整基准数据集（可选）：可以从这里访问。

使用方法

环境设置

安装依赖包： bash pip install -r requirements.txt
使用Docker（可选）：
- 构建Docker镜像： bash docker build -t my-python-app .
- 构建Docker容器： bash docker run -p 4000:80 -v ./:/usr/src/myapp --name my-container my-python-app /bin/bash
- 启动容器： bash docker start my-container
- 在容器中执行代码： bash docker exec -it my-container /bin/bash
  
  或 bash docker exec -it my-container2 python cli.py --mode api --query ecg_data-powerline_2 --openai gpt-4 --index 1 --num_trial 1

设置API密钥

OpenAI密钥：将OpenAI密钥放入key.txt文件中。 bash echo "YOUR_OPENAI_TOKEN" >> key.txt
together.ai密钥（可选）：将together.ai密钥放入together_key.txt文件中。 bash echo "YOUR_TOGETHER_AI_TOKEN" >> together_key.txt

运行代码

示例：尝试从ECG数据样本#1中去除电源线噪声。 bash python cli.py --mode api --query ecg_data-powerline_2 --openai gpt-4 --index 1 --num_trial 1

参数解释

--mode：选择模式，包括text、api、no_api、CoT、react、base。
- text：以数值形式向LLMs提供信号。
- api：Python编码环境 + API访问 + 检查 + ReACT提示。
- no_api：Python编码环境 + 检查 + ReACT提示。
- CoT：Python编码环境 + API访问 + 思维链提示。
- ReAct：Python编码环境 + API访问 + ReAct提示。
- base：Python编码环境 + API访问。
--model：选择模型，包括gpt-3.5-turbo、gpt-4、gpt-4o、gpt-4-0125-preview、gpt-4-turbo、Llama-2-70b、Llama-2-13b、Llama-2-7b、Llama-3-8b、Llama-3-70b、Qwen1.5-110B、Qwen2-72B。
--query：选择信号处理问题类型，包括ecg_data-extrapolation、ecg_data-gaussian、ecg_data-heartrate、ecg_data-imputation、ecg_data-motion、ecg_data-powerline_1、ecg_data-powerline_2、ecg_data-powerline_3、gait-delay_detection、gait-period_detection、ppg-extrapolation、ppg-imputation、resampling、speech-echo、speech-Siren、speech-TelephoneRing1、speech-TelephoneRing2、speech-TelephoneRing3、change_point_detect_1、change_point_detect_2、change_point_detect_3、change_point_detect_4、outlier_detect_1、outlier_detect_2、outlier_detect_3、outlier_detect_4。
--index：选择数据样本的索引，index ∈ {1, 2, 3}。
--num_trial：设置自我验证的轮数，num_trial ∈ {1, 3, 4, 5}。

自定义提示

系统提示：在sys_prompt.py文件中定义提示策略，用户可以添加或修改提示以构建自己的代理。

示例提示

基础提示：定义了信号处理专家的角色和任务。
API提示：定义了使用Python编码环境和API访问的提示策略。
自我验证提示：定义了验证信号处理结果的提示策略。
反思提示：定义了反思和改进信号处理计划的提示策略。

搜集汇总

数据集介绍

构建方式

SensorBench的构建旨在评估大型语言模型（LLMs）在基于编码的传感器处理中的性能。该基准集整合了多样化的真实世界传感器数据集，涵盖多种任务类型。构建过程中，研究团队精心挑选了常见的数字信号处理（DSP）任务，这些任务广泛应用于工程、医疗和工业领域。通过参考MATLAB教程和成熟的DSP教科书，确保了任务的真实性和有效性。此外，任务根据单一/组合和参数化/非参数化进行分类，以量化任务的难度，从而全面评估LLMs在不同复杂度任务中的表现。

特点

SensorBench的显著特点在于其全面性和多样性。它不仅包含了多种传感器类型和任务，还通过详细的任务分类和难度分级，提供了对LLMs性能的深入分析。此外，该基准集还探索了四种不同的提示策略，包括自我验证，以评估这些策略在传感器处理任务中的有效性。实验结果表明，自我验证策略在48%的任务中优于其他基线方法，显示出其在提升LLMs处理复杂任务能力方面的潜力。

使用方法

使用SensorBench进行研究时，研究人员可以利用其提供的多样化传感器数据集和任务类型，评估LLMs在不同场景下的表现。通过Python编码环境和预定义的API，LLMs可以执行自动化信号处理任务。研究者还可以探索不同的提示策略，如链式思维（CoT）、反应（ReAct）和自我验证，以优化LLMs的性能。此外，该基准集提供了详细的评估协议和度量标准，如信号失真比（SDR）、F1分数和均方误差（MSE），帮助研究人员全面分析和比较不同模型和策略的效果。

背景与挑战

背景概述

在网络物理系统中，传感器数据的处理、解释和管理已成为关键组成部分。传统上，传感器数据的处理需要深厚的理论知识和信号处理工具的专业技能。然而，最近的研究表明，大型语言模型（LLMs）在处理传感器数据方面展现出巨大的潜力，暗示其可能成为开发传感系统的辅助工具。为了探索这一潜力，Pengrui Quan等研究人员于2024年在UCLA构建了SensorBench，这是一个综合基准，旨在为LLMs在传感器数据处理中的表现提供量化评估。该基准包含多样化的真实世界传感器数据集，用于各种任务，展示了LLMs在简单任务中的显著能力，但在处理复杂任务和参数选择方面仍面临挑战。

当前挑战

SensorBench的构建面临多重挑战。首先，现有研究在传感器数据处理中使用的方法、数据集和评估指标各异，难以形成对LLMs在该领域表现的统一理解。其次，学术和工业界对LLMs在规划和推理任务中的可靠性存在争议。此外，评估LLMs在传感器处理中的全部潜力和局限性缺乏系统性方法。具体任务中，LLMs在处理复杂组合任务和参数选择时表现不佳，与工程专家相比存在显著差距。尽管自验证方法在某些任务中表现优异，但整体上LLMs仍难以达到人类专家的水平。

常用场景

经典使用场景

SensorBench 数据集在传感器数据处理领域中被广泛应用于评估大型语言模型（LLMs）在编码基础传感器处理任务中的表现。其经典使用场景包括对音频、心电图（ECG）、光电容积图（PPG）、运动和压力信号等多通道时间序列数据的预处理、信号重建、频谱分析、异常检测和特征提取等任务。通过这些任务，研究者能够系统地评估和比较不同LLMs在传感器数据处理中的性能，从而为开发基于LLM的传感器处理辅助工具提供量化依据。

衍生相关工作

SensorBench 数据集的推出激发了大量相关研究工作，特别是在探索大型语言模型（LLMs）在传感器数据处理中的应用潜力方面。例如，研究者们基于SensorBench开发了多种提示策略，如链式思维（CoT）、反应（ReAct）和自我验证（self-verification），以提升LLMs在传感器处理任务中的表现。此外，SensorBench还促进了LLMs在健康追踪分析、移动传感应用和人类活动识别等领域的深入研究，推动了LLMs与传感器数据处理技术的融合与发展。

数据集最近研究