five

Indoor Air Quality Dataset with Activities of Daily Living in Low to Middle-income Communities

收藏
arXiv2024-07-20 更新2024-07-24 收录
下载链接:
https://github.com/prasenjit52282/dalton-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集由印度理工学院卡拉格普尔分校等机构创建,涵盖了30个室内环境,包括住宅、教室、实验室等,旨在研究低至中收入社区的日常活动对室内空气质量的影响。数据集包含多种污染物测量值,如CO2、VOC、PM1、PM2.5等,以及通过语音识别技术获取的实时活动标签。数据收集历时六个月,涉及夏季和冬季两个季节,旨在分析不同季节和活动对室内污染动态的影响。该数据集可用于开发智能室内服务,改善现代室内设计,以及设计污染感知推荐系统等。

This dataset was created by the Indian Institute of Technology Kharagpur and other institutions. It covers 30 indoor environments including residential buildings, classrooms, laboratories and other spaces, with the objective of investigating the impact of daily activities in low- and middle-income communities on indoor air quality. The dataset contains measurements of various pollutants such as CO₂, VOCs, PM1, PM2.5 and others, alongside real-time activity labels acquired through speech recognition technology. Data collection lasted six months, covering both summer and winter seasons, to analyze the effects of different seasons and activities on the dynamics of indoor pollution. This dataset can be applied to develop intelligent indoor services, improve modern indoor design, design pollution-aware recommendation systems and other related use cases.
提供机构:
印度理工学院卡拉格普尔分校
创建时间:
2024-07-20
原始信息汇总

DALTON-Dataset 数据集概述

数据集描述

DALTON-Dataset 提供了来自印度30个室内地点为期六个月的空气质量时空测量数据,涵盖夏季和冬季两个季节。数据集包含89.1M个样本,总计13646小时的空气质量数据和46名参与者的3960个活动注释。这些地点分布在四个地区:农村、郊区和城市,覆盖了印度典型的低至中等收入人群。数据集涵盖了多种室内环境,如单间公寓、教室、研究实验室、食品食堂和住宅家庭。

数据集属性

数据集包含以下参数:

  • ts: 时间戳,格式为 yyyy/mm/dd HH:MM:SS,来自ESP32 MCU读取传感器值后。
  • T: 室内环境的温度读数,单位为摄氏度。
  • H: 室内环境的湿度读数,单位为百分比。
  • PMS1: 小于1微米的尘埃颗粒读数,单位为ppm。
  • PMS2_5: 小于2.5微米的尘埃颗粒读数,单位为ppm。
  • PMS10: 小于10微米的尘埃颗粒读数,单位为ppm。
  • CO2: 二氧化碳浓度,单位为ppm。
  • NO2: 二氧化氮浓度,单位为ppm。
  • CO: 一氧化碳浓度,单位为ppm。
  • VoC: 挥发性有机化合物浓度,单位为ppb。
  • C2H5OH: 乙醇浓度,单位为ppb。
  • ID: 部署传感器的唯一标识符。
  • Loc: 传感器在室内环境中的位置。
  • Customer: 测量地点的参与者名称,为保护隐私替换为 SiteID
  • Ph: 客户的联系电话,为保护隐私替换为 XXXX

活动注释

活动和事件(总计3960个注释)存储在 Annotations.csv 文件中。每个注释包含以下值:

  • ts: 室内事件或活动的开始时间戳,格式为 yyyy/mm/dd HH:MM:SS
  • Label: 活动或事件标签,可能包含详细描述。
  • Site: 测量地点的 SiteID,与传感器属性表中的 Customer 匹配。
  • Customer: 参与者的唯一标识符,如 P1P46

数据集准备

数据集的预处理包括以下步骤:

  • 合并测量地点的副本。
  • 清理和预处理测量地点的数据。
  • 标记数据中的断点。

文件结构

数据集的文件结构如下:

  • ./Data: 原始数据集。
  • ./Merged: 合并后的数据文件。
  • ./Processed: 处理后的数据集。
  • ./Metadata: 元数据,包括注释、参与者信息和地点详细信息。

数据集多样性

数据集涵盖了30个不同地点,每个地点的详细信息如下表所示:

Site ID #Dev Site Area (sqft) Floor Plan #F/ #M Duration (Hrs) #Samples Annot Participants
H1 5 1100 1/1 772 11402870 P1 P2
... ... ... ... ... ... ... ... ...

许可证和同意

数据集可免费下载,并可用于非商业目的,遵循 GNU Affero General Public License。所有参与者已签署同意书,同意将收集的污染物测量数据和活动标签用于非商业研究目的。该研究所的伦理审查委员会已批准该现场研究。

搜集汇总
数据集介绍
main_image_url
构建方式
为了填补低中收入社区室内空气质量研究的数据集空白,研究者们部署了一个名为DALTON的低成本多传感器空气质量监测平台,在印度的30个室内场所进行了为期六个月的测量。该平台包括多个研究级传感器,能够测量室内空气中的多种污染物浓度,以及温度和湿度。为了收集室内活动的数据,研究者们设计了一个基于语音的Android应用程序,允许用户通过语音注释他们的日常活动。数据集涵盖了夏季和冬季两个季节,并包括来自农村、郊区、城市等不同地区的数据。
特点
该数据集具有以下特点:多设备部署,捕捉不同房间内的污染物传播模式;室内类型多样,包括住宅、公寓、食堂、教室和实验室等;频繁污染物监测,包括温度、湿度以及八种常见的有害污染物;人类注释,提供实时活动标签和室内污染物的必要背景信息;多城市部署,覆盖印度四个地理区域;数据集持续时间长,跨越夏季和冬季两个季节,捕捉季节性变化和人类行为。
使用方法
该数据集可用于开发智能室内服务,构建室内污染和通风动态的模型。具体应用包括:污染源识别和活动监测,分析不同楼层平面中的污染物传播和积累模式,健康家庭特征化和现代室内设计改进,智能设备控制。用户可以使用数据集中的传感器读数和活动注释来训练机器学习模型,预测室内污染行为,识别污染源,并开发污染感知推荐系统。
背景与挑战
背景概述
近年来,室内空气污染已成为我国社会面临的一大威胁,每年导致超过320万人死亡。发展中国家,如印度,由于知识匮乏、法规不足和室外空气污染,导致民众日常接触大量污染物,因此受影响最为严重。然而,关于室内空气污染如何影响发展中国家如印度的研究却相对较少。为了填补这一空白,研究人员Prasenjit Karmakar、Swadhin Pradhan和Sandip Chakraborty收集了30个室内场所6个月的空气质量时空测量数据,这些场所位于印度四个地区的农村、郊区和城市,涵盖了典型低收入和中低收入人口。数据集包含多种类型的室内环境,如单身公寓、教室、研究实验室、食堂和住宅,为数据驱动学习模型研究提供了基础,旨在应对发展中国家独特的污染模式。这个独特的数据集要求使用先进的数据清洗和插补技术来处理由于数据收集过程中的断电或网络中断导致的缺失数据。此外,通过一个简单的语音转文本应用程序,研究人员还提供了由住户实时标注的室内活动标签。因此,环境学家和机器学习爱好者可以利用这个数据集来理解不同室内活动下污染物的复杂模式,识别反复出现的污染源,预测暴露情况,改善现代室内设计的平面图和房间结构,开发污染感知推荐系统等。
当前挑战
该数据集的研究背景和挑战包括:1)所解决的领域问题:室内空气污染对发展中国家的影响;2)构建过程中所遇到的挑战:数据清洗和插补技术处理缺失数据、实时活动标注、多设备数据同步和季节性变化的影响。
常用场景
经典使用场景
该数据集主要用于研究低中收入社区室内空气质量与日常生活活动的关联性。通过分析不同室内环境(如公寓、教室、实验室、食堂和家庭住宅)中空气质量的时间序列测量数据,研究者可以深入了解污染物的传播、积累和滞留模式。数据集提供了多种室内环境的空气质量读数,包括温度、湿度以及八种常见的有害污染物(如CO2、VOC、PM1、PM2.5、PM10、NO2、C2H5OH和CO)。此外,数据集还包含了通过语音转文本应用程序实时标注的室内活动标签,为污染物读数的解读提供了必要的室内环境上下文。
衍生相关工作
该数据集衍生了多项相关研究,包括污染源识别和活动监测、不同楼面布局中的传播和积累模式分析、健康家庭特征和现代室内设计改进、智能设备控制等。例如,研究者可以利用数据集开发模型以识别污染源和分类活动,从而提高室内空气质量。此外,数据集还可以用于分析不同楼面布局中污染物的传播、积累和滞留行为,从而改进现代室内设计,提高室内空气质量。
数据集最近研究
最新研究方向
随着对室内空气质量影响的日益关注,该数据集的最新研究方向主要集中在利用机器学习和数据驱动的方法来理解和预测室内污染的动态行为。研究人员正致力于通过分析不同室内环境和活动下的污染物传播和积累模式,识别和分类污染源,以及优化现代室内设计和智能设备控制策略。此外,该数据集还被用于开发预测室内污染暴露的模型,为改善室内空气质量提供科学依据。
相关研究论文
  • 1
    Indoor Air Quality Dataset with Activities of Daily Living in Low to Middle-income Communities印度理工学院卡拉格普尔分校 · 2024年
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务