SensorData

github2024-08-23 更新2024-08-26 收录

下载链接：

https://github.com/liquidcarbon/affinity

下载链接

链接失效反馈

官方服务：

资源简介：

来自顶级机密传感器技术的实验数据。包含时间、通道号、电压、激光状态和实验ID等字段。

Experimental data from top-secret sensor technologies. It contains fields such as time, channel number, voltage, laser status, and experiment ID.

创建时间：

2024-08-20

原始信息汇总

Affinity 数据集

概述

Affinity 是一个用于从向量数据创建带有良好注释的数据集的工具。它强调数据的意义应与数据本身一同传递。

使用方法

python import affinity as af

class SensorData(af.Dataset): """实验数据来自绝密传感器技术。""" t: af.VectorF32("经过时间（秒）") channel: af.VectorI8("通道编号（从左到右）") voltage: af.VectorF64("我们测量的东西（mV）") is_laser_on: af.VectorBool("灯亮了吗？") exp_id: af.ScalarI32("外键到 experiment")

这个工作概念涵盖了以下内容：

data = SensorData() # ✅ 空数据集 data = SensorData(**fields) # ✅ 手动构建 data = SensorData.build(...) # ⚒️ 从外部源构建，验证类型 data.df # ✅ 以数据框（Pandas/Polars/Arrow）查看 data.metadata # ✅ 注释（带有列和数据集注释的数据字典），来源 data.origin # ✅ 创建元数据，一些数据来源 data.to_csv(...) # ⚒️ 在头部注释 data.to_excel(...) # ⚒️ 在单独的工作表上注释 data.to_parquet(...) # ⚒️ data.metadata -> Parquet 元数据

工作原理

Affinity 不替代任何数据框库，但可以与任何你喜欢的包一起使用。

af.Dataset 是一个基类，定义了子数据类的行为：

简洁的类定义携带注释和预期的数据类型
子类属性（向量）可以由任何数组（numpy、pandas、polars、arrow）表示
子类实例可以从任何标量或可迭代对象构建
子类实例可以转换为任何数据框风格，并导出为任何你喜欢的数据框支持的格式

动机

我们需要为向量数据提供新的解决方案。现有的数据框包（如 pandas、polars、pyarrow）缺少一些重要功能：

除了变量和属性名称外，没有好的方法来解释数据集和每个字段的含义；数据的意义与数据本身分离
数据框包为处理任何数据类型提供了最大灵活性；这导致数据质量问题，并对存储和计算不友好

Affinity 旨在填补这些空白。

搜集汇总

数据集介绍

构建方式

SensorData数据集的构建基于Affinity框架，该框架通过Pythonic的Data Definition Language（DDL）实现数据模型的定义。具体而言，SensorData类继承自af.Dataset，通过简洁的类声明方式定义了数据集的各个属性，包括时间、通道、电压、激光状态和实验ID等。每个属性均通过af.Vector或af.Scalar类型进行详细描述，确保数据类型和含义的清晰表达。此外，数据集的存储位置和分区策略也在类定义中明确，支持从多种数据源（如Pandas、DuckDB）构建数据集，并可灵活转换为不同格式的数据框架。

特点

SensorData数据集的主要特点在于其高度结构化和语义丰富的数据模型定义。通过Affinity框架，数据集的每个字段不仅定义了数据类型，还附带了详细的描述信息，确保数据的可解释性和一致性。此外，数据集支持多种数据框架的转换，如Pandas、Polars和Arrow，提供了灵活的数据处理能力。数据集还具备强大的元数据管理功能，包括数据来源、创建时间等，有助于数据溯源和质量控制。

使用方法

使用SensorData数据集时，用户可以通过简单的类实例化或从现有数据源构建数据集。数据集支持多种数据框架的转换，用户可以根据需求选择合适的框架进行数据分析。此外，数据集提供了丰富的元数据访问接口，用户可以轻松获取数据集的注释信息和来源信息。数据集还支持DuckDB SQL查询和Parquet文件的读写操作，方便用户进行复杂的数据处理和存储。通过这些功能，SensorData数据集为用户提供了一个高效、灵活且易于管理的数据处理平台。

背景与挑战

背景概述

SensorData数据集由Top Secret Sensor Tech实验室创建，专注于收集和分析来自先进传感技术的实验数据。该数据集的核心研究问题涉及传感器数据的精确记录与分析，旨在提升对复杂环境下的数据采集和处理能力。SensorData数据集的创建不仅推动了传感器技术的发展，还为相关领域的研究提供了宝贵的数据资源，特别是在高精度测量和实时数据处理方面。

当前挑战

SensorData数据集在构建过程中面临多项挑战。首先，数据的高精度要求对传感器的性能和数据采集系统提出了极高要求。其次，数据集的注释和元数据管理需要确保数据的可解释性和可追溯性，以避免因数据误解导致的错误。此外，数据集的存储和处理需适应大规模数据的高效管理，确保在不同平台和系统间的无缝集成。

常用场景

经典使用场景

SensorData数据集在传感器技术领域中被广泛用于实验数据的记录与分析。其经典使用场景包括但不限于：通过定义传感器数据模型，实现对传感器输出的时间、通道、电压等参数的精确记录；利用数据集的元数据功能，确保数据的含义与数据本身紧密结合，从而提高数据的可解释性和可信度；通过构建数据实例，从各种数据源（如CSV文件、DuckDB数据库）中自动生成数据集，极大地简化了数据导入和处理流程。

衍生相关工作

SensorData数据集的推出，催生了一系列相关的工作和研究。例如，基于该数据集，研究人员开发了多种数据处理和分析工具，进一步提升了数据处理的效率和准确性。同时，SensorData的元数据注释功能，启发了其他领域对数据注释标准的研究和应用，推动了数据科学领域的发展。此外，该数据集还被用于多个学术研究项目中，如传感器网络优化、数据驱动的故障预测等，为相关领域的研究提供了重要的数据支持。

数据集最近研究