five

Gas Sensor Array Drift Dataset for Gas Classification|传感器技术数据集|气体分类数据集

收藏
github2024-10-25 更新2024-10-30 收录
传感器技术
气体分类
下载链接:
https://github.com/MoraaOntita/GasSensor-DriftCompensation
下载链接
链接失效反馈
资源简介:
该数据集由UC San Diego的ChemoSignals实验室收集,包含13,910个实例,每个实例包含16个化学传感器对特定气体的响应。数据集涵盖了六种目标气体:乙醇、乙烯、氨、乙醛、丙酮和甲苯,收集时间跨度为36个月。数据集的目的是解决传感器漂移问题,并创建鲁棒的气体鉴别模型。
创建时间:
2024-10-14
原始信息汇总

气体传感器阵列漂移数据集

项目概述

该项目专注于气体传感器阵列的漂移补偿。传感器漂移是由于传感器响应随时间逐渐变化而影响数据质量的挑战。数据集包含六种目标气体的数千次测量,浓度水平各异:

  1. 乙醇
  2. 乙烯
  3. 乙醛
  4. 丙酮
  5. 甲苯

模型的目标是学习这些漂移模式,并在传感器响应随时间变化时进行准确分类。

数据集信息

数据集包含13,910个实例,由加州大学圣地亚哥分校的ChemoSignals实验室收集。每个样本包含对特定气体的传感器响应。每个传感器读数由一个128维的特征向量表示,包含两种主要特征类型:

  • 稳态特征(ΔR): 捕捉暴露时的电阻变化。
  • 动态特征(EMA): 使用指数移动平均(EMA)值表示瞬态行为。

数据结构

数据分为10个批次,代表不同的时间段和气体类型,用于漂移分析:

批次ID 月份ID
1 1和2
2 3, 4, 8, 9, 10
... ...
10 36

关键统计

  • 实例数: 13,910
  • 特征数: 128
  • 传感器类型: 16
  • 持续时间: 36个月

目标和应用

目标是提高气体分类任务的性能和时间上的鲁棒性,实现以下功能:

  • 传感器漂移缓解: 检测和补偿传感器漂移。
  • 气体分类: 在不同浓度下分类六种气体。
  • 特征工程: 利用稳态和动态特征进行分类。

数据预处理

每个测量结果生成一个128维的特征向量,包含以下内容:

  • 稳态值(ΔR): 最大电阻与基线之间的变化。
  • 归一化ΔR: 以比率表示。
  • EMA特征(上升和衰减): 三种不同的α值(0.001, 0.01, 0.1)捕捉传感器响应的上升和下降阶段的瞬态部分。

分类模型

为了复现引用论文的结果,以下是关键参数:

  • 交叉验证折数: 10
  • 对数缩放的C值: 范围从-5到10,步长为1
  • 对数缩放的Gamma(γ)值: 范围从-10到5,步长为1
  • 特征缩放: 标准化特征值在-1到+1之间

训练超参数

批次 C Gamma 准确率(%)
1 256.0 0.03125 98.88
2 64.0 0.00390625 99.76
... ... ... ...
10 1024.0 0.0078125 99.66

项目结构

项目目录和文件结构如下:

plaintext . ├── data # 原始数据和处理后的文件 ├── src # 数据摄取、预处理和模型训练的源代码 ├── artifacts # 训练好的模型和流水线输出 ├── app.py # Flask应用程序用于预测 └── README.md # 项目文档

结果和评估

模型在所有批次中表现出强大的分类性能,大多数情况下准确率超过99%。评估采用10折交叉验证设置,分类器经过微调以适应不同的传感器条件和气体浓度。

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由加州大学圣地亚哥分校的ChemoSignals实验室采集,涵盖了16种化学传感器在36个月内对六种不同气体(乙醇、乙烯、氨、乙醛、丙酮和甲苯)的响应数据。数据集包含13,910个实例,每个实例由128维特征向量表示,这些特征向量由稳态特征(ΔR)和动态特征(EMA)组成。稳态特征捕捉暴露后的电阻变化,而动态特征则通过指数移动平均值(EMA)来表示传感器的瞬态行为。数据被分为10个批次,以模拟不同时间段和气体类型的漂移分析。
特点
该数据集的主要特点在于其对传感器漂移的全面捕捉和处理。通过结合稳态和动态特征,数据集能够有效反映传感器响应随时间的变化,从而为气体分类任务提供丰富的信息。此外,数据集的结构设计考虑了时间序列的特性,使得模型能够学习到传感器响应的长期变化模式。这种设计不仅增强了模型的鲁棒性,还为研究传感器漂移补偿提供了宝贵的资源。
使用方法
使用该数据集时,首先需进行数据预处理,包括特征标准化和数据分割。随后,可采用支持向量机(SVM)等分类模型进行训练,模型参数如C值和Gamma值需通过交叉验证进行优化。数据集提供了详细的训练超参数和模型评估结果,用户可根据这些信息调整模型以达到最佳性能。此外,数据集还附带了一个Flask应用,方便用户进行实时预测和模型验证。
背景与挑战
背景概述
气体传感器阵列漂移数据集(Gas Sensor Array Drift Dataset for Gas Classification)由加州大学圣地亚哥分校的ChemoSignals实验室创建,旨在解决气体传感器阵列中的漂移问题。该数据集收集了16种化学传感器在36个月内对六种不同气体(乙醇、乙烯、氨、乙醛、丙酮和甲苯)的响应数据,共计13,910个实例。其核心研究问题是如何在传感器响应随时间变化的情况下,实现对气体的准确分类。该数据集的开发不仅提升了气体分类模型的鲁棒性,还为传感器漂移补偿技术的发展提供了宝贵的数据支持。
当前挑战
该数据集面临的主要挑战包括:1) 传感器漂移问题,即传感器响应随时间逐渐变化,影响数据质量;2) 数据集的构建过程中,需要处理大量高维特征,特别是稳态特征(ΔR)和动态特征(EMA)的提取与整合;3) 在不同时间批次和气体浓度下,确保分类模型的稳定性和准确性。此外,如何有效利用和优化这些特征,以提高模型的泛化能力和应对不同环境条件下的分类任务,也是当前研究的重点。
常用场景
经典使用场景
在气体传感器阵列漂移数据集的背景下,该数据集的经典使用场景主要集中在气体分类任务中。通过利用16个化学传感器在36个月内收集的13,910个实例,研究人员能够构建和训练机器学习模型,以识别和分类六种不同的气体:乙醇、乙烯、氨、乙醛、丙酮和甲苯。这些模型不仅能够处理传感器随时间漂移的问题,还能在不同浓度水平下实现高精度的气体分类。
解决学术问题
该数据集在学术研究中解决了传感器漂移这一关键问题。传感器漂移是指传感器响应随时间逐渐变化,影响数据质量的现象。通过分析和建模这些漂移模式,研究人员能够开发出更为鲁棒的气体分类模型,从而提高气体识别的准确性和稳定性。这不仅有助于深化对传感器行为的理解,还为相关领域的进一步研究提供了坚实的基础。
衍生相关工作
基于该数据集,许多相关研究工作得以展开。例如,有研究者利用该数据集开发了新的特征工程方法,以提高模型的分类性能。此外,还有研究探讨了不同机器学习算法在处理传感器漂移问题上的表现,为算法选择提供了参考。这些衍生工作不仅丰富了气体分类领域的研究内容,还推动了传感器技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MMOral

MMOral是一个针对全景X光片解读的大规模多模态指令数据集和基准。它包括20,563张带有1.3百万条指令跟随实例的注释图像,涵盖了多种任务类型,如属性提取、报告生成、视觉问答和基于图像的对话。此外,我们还提出了MMOral-Bench,这是一个涵盖牙科五个关键诊断维度的综合评估套件。我们评估了64个LVLMs在MMOral-Bench上的表现,发现即使是表现最好的模型GPT-4o,也只能达到41.45%的准确率,这揭示了当前模型在这一领域的显著局限性。为了促进该特定领域的发展,我们还提出了OralGPT,它使用我们精心策划的MMOral指令数据集对Qwen2.5-VL-7B进行监督微调。值得注意的是,一个SFT周期就为LVLMs带来了显著的性能提升,例如,OralGPT表现出24.73%的改进。MMOral和OralGPT都具有作为智能牙科关键基础的巨大潜力,并使牙科领域中的多模态AI系统更具临床意义。数据集、模型、基准和评估套件可在上述网址获取。

arXiv 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

OpenECG

OpenECG是一个包含来自九个中心共120万份12导联ECG记录的大型基准数据集,用于评估基于公开数据集训练的ECG基础模型。该数据集整合了多个公开可用的12导联ECG数据集,涵盖了483,837名患者的1,233,337份ECG记录,包括临床诊断标注和自监督学习的未标注原始信号。

arXiv 收录

PTB-Image

PTB-Image是一个包含扫描纸质心电图和相应数字信号的综合数据集,由越南河内VinUniversity College of Engineering and Computer Science和VinUni-Illinois Smart Health Center创建。该数据集旨在推动心电图数字化技术的研究,包含549个记录,每个记录由一位至五位患者的15个同步心电图信号组成,涵盖标准12导联心电图和Frank导联。数据集通过扫描原始PTB数据集的纸质心电图并打印部分信号制作而成,可用于心电图数字化、自动诊断及远程医疗等领域的应用研究。

arXiv 收录

TCM-Tongue

TCM-Tongue是一个专门用于人工智能辅助中医舌诊的标准化舌像数据集,包含6719张在标准化条件下捕获的高质量图像,并标注了20种病理症状类别(平均每张图像有2.54个经过临床验证的标签,所有标签均由持有执照的中医执业医师验证)。数据集支持多种标注格式(COCO、TXT、XML),以方便广泛使用,并使用九种深度学习模型进行了基准测试,以展示其在人工智能开发中的实用性。该资源为推进可靠的中医计算工具提供了关键基础,填补了该领域的数据短缺,并通过标准化、高质量的诊断数据促进了人工智能在研究和临床实践中的整合。

arXiv 收录