subscription-killer-synthetic-emails

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/hyeon-expression/subscription-killer-synthetic-emails

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集子模块是为订阅杀手MLOps管道设计的共享评估数据集和模式定义集合。它包含一个结构化的目录，其中包含源代码、数据存储（按版本组织）、维护脚本和模式定义。数据以JSONL格式存储，并通过Pydantic模式进行验证。该模块支持Python包安装，便于在项目中导入和使用模式。虽然README详细说明了安装、测试和集成步骤，但未明确描述数据集的具体内容、规模或应用场景，仅提及与订阅事件类型（如月度付款）相关的样本处理。

创建时间：

2026-03-02

原始信息汇总

数据集概述

数据集名称

subscription-killer-synthetic-emails

数据集用途

为 subscription-killer MLOps 流水线提供共享的评估数据集和模式定义。

数据集结构

数据集采用子模块形式组织，主要包含代码和数据两部分。

src/datasets_shared/：根包（避免命名冲突），内含模式定义。
data/：存储数据，与代码分离。
- versions/：按版本存储数据，版本命名格式为 YYYY-MM-DD_run_id。
- archive/：归档数据。
- latest/：指向最新成功版本（例如 ./versions/2026-02-25_run_001/）的相对符号链接。
scripts/：子模块维护脚本。
tests/：测试文件。

核心组件

模式定义

位于 src/datasets_shared/schema/ 目录下，使用 Pydantic 定义。

base.py：共享的 Mixins/基类模型。
constants.py：枚举（例如 SubscriptionEventType）。
models.py：具体模型（例如 Sample, Dataset）。

主要数据模型

Sample：样本模型，包含 message（RawGmailMessage 类型）和 subscription_event_type（SubscriptionEventType 枚举）等字段。
Dataset：数据集模型。
SubscriptionEventType：订阅事件类型枚举。

安装与使用

安装方式

作为可编辑包安装（推荐）：在子模块根目录执行 pip install -e .。
作为常规包安装：执行 pip install .。

模式使用

在消费项目中导入并使用模式定义： python from datasets_shared.schema import Sample, Dataset, SubscriptionEventType

数据验证与维护

数据验证脚本

scripts/validate_data.py：用于验证 JSONL 数据是否符合 Pydantic 模式。
- 验证单个文件：python scripts/validate_data.py data/versions/2026-02-25_run_001/task_a.jsonl
- 验证整个目录：python scripts/validate_data.py data/versions/

更新最新版本指针

scripts/sync_latest.py：用于更新指向最新版本的 data/latest/ 符号链接。

测试

单元测试

使用 pytest 运行测试。

运行所有测试：pytest tests/ -v
运行特定测试文件：pytest tests/test_validation.py -v 或 pytest tests/test_converter.py -v
运行测试并计算覆盖率：pytest tests/ --cov=src/datasets_shared

手动测试脚本

可不依赖 pytest 单独运行：

测试数据集验证：python tests/test_validation.py
测试 Sample 到 RawGmailMessage 的转换：python tests/test_converter.py

测试结构

test_validation.py：数据集结构和验证测试。
test_converter.py：Sample 到 RawGmailMessage 的转换测试。

版本管理

命名格式：YYYY-MM-DD_<dag_run_id>。
保留策略：在 config/benchmark.yaml 中配置 max_versions。
最新版本指针：data/latest/ 始终指向最近一次成功的版本。

集成步骤

添加为子模块：git submodule add <datasets_repo_url> datasets
初始化：make submodule-init
安装包：pip install -e datasets/
导入模式：from datasets_shared.schema import *
使用数据集：通过 datasets/data/versions/... 或 datasets/data/latest/ 引用文件。

搜集汇总

数据集介绍

构建方式

在电子邮件自动化处理领域，subscription-killer-synthetic-emails数据集采用模块化设计理念构建，其核心架构遵循代码与数据分离原则。数据存储于独立目录中，按时间戳与运行标识符进行版本管理，并通过符号链接指向最新版本，确保数据追溯性与一致性。数据集通过Pydantic模式定义严格规范样本结构，每个样本均包含原始邮件消息与订阅事件类型枚举，辅以自动化验证脚本保障数据质量。

特点

该数据集展现出高度结构化与类型安全的特性，其模式定义基于Python类型提示实现，支持静态类型检查，提升了开发过程的可靠性。数据组织采用版本化目录体系，配合动态符号链接机制，便于实验复现与迭代管理。作为MLOps流程的评估组件，数据集紧密集成于自动化管道，既服务于模型验证，也支撑订阅管理场景下的合成邮件生成任务。

使用方法

使用者可通过pip安装数据集子模块，以可编辑模式集成至现有项目。在代码中导入共享模式定义后，即可创建符合规范的样本实例，或直接读取版本化存储的JSONL文件。数据验证可通过配套脚本执行，确保输入符合模式约束。该数据集设计为MLOps管道的一部分，建议在持续集成环境中运行单元测试，以维护数据模式与业务逻辑的一致性。

背景与挑战

背景概述

在机器学习运维（MLOps）领域，高效管理评估数据集对于模型迭代与性能验证至关重要。subscription-killer-synthetic-emails数据集作为订阅管理自动化流程的核心组成部分，由相关研究团队于近期构建，旨在通过合成电子邮件数据模拟用户订阅行为事件，如月度支付确认等。该数据集依托Pydantic模式定义，确保了数据结构的一致性与可验证性，其创建推动了自然语言处理在商业流程自动化中的应用，为邮件分类、意图识别等任务提供了标准化基准。

当前挑战

该数据集致力于解决订阅管理场景下的电子邮件自动分类与事件提取问题，其核心挑战在于如何精准模拟真实用户通信中的语言多样性与行为模式，以覆盖各类边缘案例。在构建过程中，研究人员需克服合成数据与真实分布之间的偏差，确保生成的邮件内容在语义、风格及事件逻辑上具备高度逼真性。同时，数据版本管理与模式验证的复杂性也对数据集的持续维护与集成提出了严格的技术要求。

常用场景

经典使用场景

在自然语言处理与机器学习运维领域，subscription-killer-synthetic-emails数据集主要应用于电子邮件文本的自动化处理与分类任务。该数据集通过模拟真实的订阅服务邮件场景，为模型训练提供了结构化的标注数据，使得研究人员能够针对订阅管理中的关键事件，如月度付款、服务更新或取消请求，进行精准的文本识别与意图分析。其经典使用场景包括构建和评估基于深度学习的文本分类模型，以自动化识别邮件中的订阅事件类型，从而提升邮件处理系统的效率与准确性。

解决学术问题

该数据集有效解决了学术研究中关于合成数据生成与真实场景模拟的挑战。通过提供标准化的邮件样本与事件类型标注，它支持了文本分类、意图识别和序列标注等自然语言处理任务的研究，尤其是在数据稀缺或隐私敏感的场景下。其意义在于促进了机器学习模型在订阅管理领域的泛化能力评估，为自动化邮件处理系统的开发提供了可靠的数据基础，推动了相关算法在真实应用中的性能优化与验证。

衍生相关工作

基于该数据集，衍生了一系列经典研究工作，主要集中在自然语言处理与机器学习运维的交叉领域。例如，研究人员利用其结构化标注开发了高效的文本分类模型，如基于Transformer的预训练语言模型微调方法，以提升订阅事件识别的准确率。同时，该数据集也促进了合成数据生成技术的改进，包括对抗生成网络在邮件模拟中的应用，以及多任务学习框架在邮件意图分析中的探索，为后续的自动化邮件处理系统提供了重要的算法参考与基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集