Dataset

github2024-11-20 更新2024-11-22 收录

下载链接：

https://github.com/qinyawen/Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们为场景分类和连续认证分别创建了数据集。对于场景分类任务，我们的实验包括五个场景：静态坐、动态坐、躺、走和慢跑。传感器数据频率为50Hz，样本持续时间为50秒。整个数据集包含30,000个样本，场景分布均衡（1:1:1:1:1）。数据集随机分为训练、验证和测试集，比例为6:2:2。对于连续认证任务，25名用户参与了数据收集，包括12名男性和13名女性。年龄结构分为三组（1:1:1）。此外，每个参与者的数据单独处理以创建数据集。正负样本比例为1:1，负样本从同一场景的其他参与者数据中随机选择。每个用户在每个场景中大约有600个样本。每个用户的数据集随机分为训练、验证和测试集，比例为6:2:2，传感器数据频率为50Hz，样本持续时间为50秒。

We developed two separate datasets, one for scene classification and the other for continuous authentication. For the scene classification task, our experiments involve five scenarios: static sitting, dynamic sitting, lying down, walking, and jogging. The sensor data is sampled at 50 Hz, with each sample spanning 50 seconds. The full dataset contains 30,000 samples, featuring an evenly balanced distribution across all five scenarios (ratio 1:1:1:1:1). The dataset is randomly partitioned into training, validation, and test sets at a 6:2:2 ratio. For the continuous authentication task, 25 participants were enrolled for data collection, including 12 males and 13 females. The age structure is divided into three groups with a 1:1:1 ratio. Additionally, data from each participant is processed independently to construct individual datasets. The ratio of positive to negative samples is 1:1, with negative samples randomly selected from data of other participants in the same scenario. Each participant has approximately 600 samples per scenario. The dataset for each user is randomly split into training, validation, and test sets at a 6:2:2 ratio, with sensor data sampled at 50 Hz and each sample lasting 50 seconds.

创建时间：

2024-11-20

原始信息汇总

数据集概述

场景分类任务

场景类型: 包含五个场景：静态坐、动态坐、躺、走、慢跑。
数据频率: 50Hz。
样本时长: 50秒。
样本总数: 30,000个。
场景分布: 每个场景样本数量相等（1:1:1:1:1）。
数据集划分: 随机划分为训练集、验证集和测试集，比例为6:2:2。

连续认证任务

参与者: 25名用户，其中12名男性，13名女性。
年龄结构: 分为三个年龄组，比例为1:1:1。
样本平衡: 正负样本比例为1:1，负样本从其他参与者在相同场景的数据中随机选择。
样本数量: 每个用户每个场景约600个样本。
数据集划分: 每个用户的数据集随机划分为训练集、验证集和测试集，比例为6:2:2。
数据频率: 50Hz。
样本时长: 50秒。

下载链接

链接: https://pan.baidu.com/s/1RcdWGv-P_QpqS5HfNsA0ZA
提取码: tkwe

搜集汇总

数据集介绍

构建方式

该数据集的构建旨在分别支持场景分类和连续认证任务。在场景分类任务中，实验涵盖了五种场景：静态坐姿、动态坐姿、躺卧、行走和慢跑。传感器数据频率为50Hz，样本时长为50秒。整个数据集包含30,000个样本，场景分布均衡（1:1:1:1:1）。数据集被随机划分为训练集、验证集和测试集，比例为6:2:2。对于连续认证任务，数据收集涉及25名用户，包括12名男性和13名女性，年龄结构分为三组（1:1:1）。每位参与者的数据经过单独处理，正负样本比例为1:1，负样本从其他参与者在相同场景下的数据中随机选取。每位用户在每个场景下约有600个样本。每位用户的数据集同样被随机划分为训练集、验证集和测试集，比例为6:2:2，传感器数据频率和样本时长与场景分类任务一致。

特点

此数据集的主要特点在于其多样性和均衡性。场景分类任务中，五种场景的样本分布均衡，确保了模型训练的全面性。连续认证任务中，正负样本的均衡设计有助于提高模型的泛化能力。此外，数据集的构建考虑了用户的性别和年龄分布，确保了数据的代表性和广泛适用性。传感器数据的高频率（50Hz）和固定样本时长（50秒）提供了丰富的动态信息，有助于捕捉细微的运动特征。

使用方法

该数据集适用于场景分类和连续认证任务的模型训练与评估。用户可从提供的百度网盘链接下载数据集，并根据任务需求划分数据集。对于场景分类任务，建议使用均衡的五种场景数据进行模型训练，并利用验证集和测试集评估模型性能。对于连续认证任务，建议分别处理每位用户的数据，确保正负样本的均衡，并利用验证集和测试集进行模型验证。数据集的高频率传感器数据和固定样本时长为模型提供了丰富的动态信息，适用于捕捉和分析复杂的运动模式。

背景与挑战

背景概述

在场景分类与连续认证领域，Dataset数据集的创建旨在解决复杂环境下的数据处理与分析问题。该数据集由一组主要研究人员或机构于近期开发，专注于通过高频传感器数据（50Hz）捕捉五种不同场景（静坐、动态坐、躺、走、慢跑）的行为模式。数据集包含30,000个样本，每种场景样本数量均衡，且随机分为训练、验证和测试集，比例为6:2:2。此外，连续认证任务中，25名参与者（12男13女）的数据被单独处理，确保正负样本平衡，并随机从其他参与者数据中选取负样本。每名用户在每个场景下约有600个样本，同样按6:2:2比例分为训练、验证和测试集。此数据集的构建对提升场景分类与用户认证的准确性和鲁棒性具有重要意义。

当前挑战

Dataset数据集在构建过程中面临多项挑战。首先，场景分类任务中，不同场景的行为模式复杂多变，如何准确捕捉并区分这些模式是一个主要挑战。其次，连续认证任务中，确保正负样本的均衡性以及从其他参与者数据中随机选取负样本，增加了数据处理的复杂性。此外，高频传感器数据（50Hz）的处理要求高效的数据处理算法和强大的计算资源。最后，数据集的随机分割和均衡分布虽然提高了模型的泛化能力，但也对数据预处理和模型训练提出了更高的要求。

常用场景

经典使用场景

在场景分类任务中，该数据集的经典使用场景包括对静态坐姿、动态坐姿、躺卧、行走和慢跑五种场景的分类。通过50Hz的传感器数据频率和50秒的样本持续时间，研究人员可以构建和验证基于传感器数据的场景分类模型。每个场景的样本数量均衡分布，确保了模型训练的公平性和广泛性。

衍生相关工作

基于该数据集，已衍生出多项经典工作，包括改进的场景分类算法和用户身份认证模型。这些工作不仅提升了分类和认证的准确性，还推动了传感器数据处理技术的发展。例如，一些研究通过深度学习方法对传感器数据进行特征提取和分类，显著提高了场景识别的精度。

数据集最近研究