Gas Sensor Array Drift Dataset for Gas Classification|传感器技术数据集|气体分类数据集
收藏气体传感器阵列漂移数据集
项目概述
该项目专注于气体传感器阵列的漂移补偿。传感器漂移是由于传感器响应随时间逐渐变化而影响数据质量的挑战。数据集包含六种目标气体的数千次测量,浓度水平各异:
- 乙醇
- 乙烯
- 氨
- 乙醛
- 丙酮
- 甲苯
模型的目标是学习这些漂移模式,并在传感器响应随时间变化时进行准确分类。
数据集信息
数据集包含13,910个实例,由加州大学圣地亚哥分校的ChemoSignals实验室收集。每个样本包含对特定气体的传感器响应。每个传感器读数由一个128维的特征向量表示,包含两种主要特征类型:
- 稳态特征(ΔR): 捕捉暴露时的电阻变化。
- 动态特征(EMA): 使用指数移动平均(EMA)值表示瞬态行为。
数据结构
数据分为10个批次,代表不同的时间段和气体类型,用于漂移分析:
| 批次ID | 月份ID |
|---|---|
| 1 | 1和2 |
| 2 | 3, 4, 8, 9, 10 |
| ... | ... |
| 10 | 36 |
关键统计
- 实例数: 13,910
- 特征数: 128
- 传感器类型: 16
- 持续时间: 36个月
目标和应用
目标是提高气体分类任务的性能和时间上的鲁棒性,实现以下功能:
- 传感器漂移缓解: 检测和补偿传感器漂移。
- 气体分类: 在不同浓度下分类六种气体。
- 特征工程: 利用稳态和动态特征进行分类。
数据预处理
每个测量结果生成一个128维的特征向量,包含以下内容:
- 稳态值(ΔR): 最大电阻与基线之间的变化。
- 归一化ΔR: 以比率表示。
- EMA特征(上升和衰减): 三种不同的α值(0.001, 0.01, 0.1)捕捉传感器响应的上升和下降阶段的瞬态部分。
分类模型
为了复现引用论文的结果,以下是关键参数:
- 交叉验证折数: 10
- 对数缩放的C值: 范围从-5到10,步长为1
- 对数缩放的Gamma(γ)值: 范围从-10到5,步长为1
- 特征缩放: 标准化特征值在-1到+1之间
训练超参数
| 批次 | C | Gamma | 准确率(%) |
|---|---|---|---|
| 1 | 256.0 | 0.03125 | 98.88 |
| 2 | 64.0 | 0.00390625 | 99.76 |
| ... | ... | ... | ... |
| 10 | 1024.0 | 0.0078125 | 99.66 |
项目结构
项目目录和文件结构如下:
plaintext . ├── data # 原始数据和处理后的文件 ├── src # 数据摄取、预处理和模型训练的源代码 ├── artifacts # 训练好的模型和流水线输出 ├── app.py # Flask应用程序用于预测 └── README.md # 项目文档
结果和评估
模型在所有批次中表现出强大的分类性能,大多数情况下准确率超过99%。评估采用10折交叉验证设置,分类器经过微调以适应不同的传感器条件和气体浓度。

MMOral
MMOral是一个针对全景X光片解读的大规模多模态指令数据集和基准。它包括20,563张带有1.3百万条指令跟随实例的注释图像,涵盖了多种任务类型,如属性提取、报告生成、视觉问答和基于图像的对话。此外,我们还提出了MMOral-Bench,这是一个涵盖牙科五个关键诊断维度的综合评估套件。我们评估了64个LVLMs在MMOral-Bench上的表现,发现即使是表现最好的模型GPT-4o,也只能达到41.45%的准确率,这揭示了当前模型在这一领域的显著局限性。为了促进该特定领域的发展,我们还提出了OralGPT,它使用我们精心策划的MMOral指令数据集对Qwen2.5-VL-7B进行监督微调。值得注意的是,一个SFT周期就为LVLMs带来了显著的性能提升,例如,OralGPT表现出24.73%的改进。MMOral和OralGPT都具有作为智能牙科关键基础的巨大潜力,并使牙科领域中的多模态AI系统更具临床意义。数据集、模型、基准和评估套件可在上述网址获取。
arXiv 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
OpenECG
OpenECG是一个包含来自九个中心共120万份12导联ECG记录的大型基准数据集,用于评估基于公开数据集训练的ECG基础模型。该数据集整合了多个公开可用的12导联ECG数据集,涵盖了483,837名患者的1,233,337份ECG记录,包括临床诊断标注和自监督学习的未标注原始信号。
arXiv 收录
PTB-Image
PTB-Image是一个包含扫描纸质心电图和相应数字信号的综合数据集,由越南河内VinUniversity College of Engineering and Computer Science和VinUni-Illinois Smart Health Center创建。该数据集旨在推动心电图数字化技术的研究,包含549个记录,每个记录由一位至五位患者的15个同步心电图信号组成,涵盖标准12导联心电图和Frank导联。数据集通过扫描原始PTB数据集的纸质心电图并打印部分信号制作而成,可用于心电图数字化、自动诊断及远程医疗等领域的应用研究。
arXiv 收录
TCM-Tongue
TCM-Tongue是一个专门用于人工智能辅助中医舌诊的标准化舌像数据集,包含6719张在标准化条件下捕获的高质量图像,并标注了20种病理症状类别(平均每张图像有2.54个经过临床验证的标签,所有标签均由持有执照的中医执业医师验证)。数据集支持多种标注格式(COCO、TXT、XML),以方便广泛使用,并使用九种深度学习模型进行了基准测试,以展示其在人工智能开发中的实用性。该资源为推进可靠的中医计算工具提供了关键基础,填补了该领域的数据短缺,并通过标准化、高质量的诊断数据促进了人工智能在研究和临床实践中的整合。
arXiv 收录
