Breakfast dataset

github2022-12-29 更新2024-05-31 收录

下载链接：

https://github.com/data-iitd/proactive

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含用户执行动作的类型、时间和最终目标，分为训练集和测试集，每个集合包含三个文件：动作类型、动作时间和目标。

The dataset encompasses the types, timings, and ultimate objectives of user actions, segmented into training and testing sets. Each set comprises three files: action types, action timings, and objectives.

创建时间：

2022-06-10

原始信息汇总

数据集概述

数据集文件结构

训练数据集文件：
- train_ev.txt：用户执行的动作类型。
- train_ti.txt：用户执行动作的时间。
- train_go.txt：活动的最终目标。
测试数据集文件：
- test_ev.txt：用户执行的动作类型。
- test_ti.txt：用户执行动作的时间。
- test_go.txt：活动的最终目标。

数据集处理

数据预处理：使用develop_dumps.py脚本，该脚本用于合并不同文件、标准化动作时间，并生成用于训练/测试数据的.p格式数据。

模型评估指标

准确率（Acc）：预测事件类型的准确性。
平均绝对误差（MAE）：真实与预测动作时间之间的平均绝对误差。
目标预测准确率（GPA）：测试数据上的目标预测准确率。
间隔目标预测准确率（Itv. GPA）：反映PROACTIVE在每个新动作到来时预测正确目标的能力，与目标预测准确率不同，用于跟踪由于gamma（RL-trick）引起的表现变化。

搜集汇总

数据集介绍

构建方式

Breakfast数据集的构建基于用户活动序列的详细记录，涵盖了用户执行的动作类型、动作发生的时间以及活动的最终目标。数据集通过将用户行为数据分为训练集和测试集，分别存储于不同的文件中，如train_ev.txt、train_ti.txt和train_go.txt，以及对应的测试集文件。这些文件通过特定的格式组织，确保了数据的结构化和可处理性。

特点

Breakfast数据集的特点在于其细致地记录了用户活动的时间序列数据，包括动作类型、时间戳以及目标信息。这种多维度的数据组织方式使得研究者能够深入分析用户行为的时序特征及其与目标达成之间的关系。此外，数据集还提供了标准化的时间归一化处理，便于模型训练和评估。

使用方法

使用Breakfast数据集时，首先需要通过运行develop_dumps.py脚本将原始数据文件转换为pickle格式的dump文件，以便于模型加载和处理。随后，通过执行run.sh脚本启动模型训练和测试过程。模型将根据数据集中的动作序列和时间信息，预测动作类型、时间误差以及目标达成情况，并输出相应的评估指标，如准确率（Acc）、平均绝对误差（MAE）和目标预测准确率（GPA）。

背景与挑战

背景概述

Breakfast数据集是2022年由Vinayak Gupta和Srikanta Bedathur在SIGKDD会议上提出的，作为其论文《ProActive: Self-Attentive Temporal Point Process Flows for Activity Sequences》的配套数据集。该数据集主要用于研究用户活动序列中的时间点过程，旨在通过分析用户行为序列中的动作类型和时间，预测用户的最终目标。Breakfast数据集的构建基于实际用户行为数据，涵盖了动作类型、动作时间及活动目标等多个维度，为时间序列分析和预测模型的研究提供了丰富的实验材料。该数据集在时间序列预测、行为分析等领域具有重要的研究价值，推动了相关领域的技术进步。

当前挑战

Breakfast数据集在解决用户活动序列预测问题时面临多重挑战。首先，用户行为具有高度的不确定性和多样性，如何准确捕捉并预测用户的行为模式是一个核心难题。其次，时间序列数据的非线性和动态变化特性使得模型的训练和优化过程复杂化，尤其是在处理动作时间预测时，模型需要具备较高的时间敏感性。此外，数据集的构建过程中，如何有效整合和标准化不同来源的行为数据，确保数据的质量和一致性，也是一个技术难点。这些挑战不仅要求模型具备强大的学习能力，还需要在数据处理和特征工程方面进行精细的设计与优化。

常用场景

经典使用场景

Breakfast数据集在时间点过程（Temporal Point Process）和活动序列预测领域中被广泛使用。该数据集通过记录用户在不同时间点执行的动作类型及其时间戳，为研究者提供了一个丰富的实验平台。经典的使用场景包括预测用户的下一个动作类型、动作发生的时间以及最终的活动目标。这些任务对于理解用户行为模式、优化推荐系统和提高自动化系统的效率具有重要意义。

衍生相关工作

基于Breakfast数据集，研究者们开发了多种经典的时间点过程模型和活动序列预测算法。例如，PROACTIVE模型通过自注意力机制（Self-Attentive Temporal Point Process Flows）实现了对活动序列的高效建模和预测。该模型不仅在动作类型和时间预测上表现出色，还在目标预测任务中取得了显著进展。此外，Breakfast数据集还激发了其他相关研究，如基于强化学习的序列预测方法和多任务学习框架，进一步推动了该领域的发展。

数据集最近研究