Factory Email Extraction

github2026-02-27 更新2026-03-06 收录

下载链接：

https://github.com/aryaniyaps/email-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该项目解析了一个合成的工厂生产电子邮件语料库（`data.txt`）并将其转换为结构化的CSV文件（`output.csv`）。输入文件`data.txt`包含100封电子邮件，每封电子邮件都包裹在`-----EMAIL START-----`和`-----EMAIL END-----`之间，包含`To:`、`From:`和`Subject:`标题，以及一个自由形式的正文，其中嵌入了生产细节，如序列号、物品名称、描述、规格、数量和截止日期。输出文件`output.csv`是一个表格表示，其中每封电子邮件成为一行，原始文本和提取的字段都作为列可用。

This project parses a synthetic factory production email corpus (`data.txt`) and converts it into a structured CSV file (`output.csv`). The input file `data.txt` contains 100 emails, each enclosed within `-----EMAIL START-----` and `-----EMAIL END-----`, with headers including `To:`, `From:`, and `Subject:`, as well as free-form body text embedding production details such as serial numbers, item names, descriptions, specifications, quantities, and deadlines. The output file `output.csv` is a tabular representation where each email corresponds to one row, with both the original text and extracted fields available as columns.

创建时间：

2026-02-15

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Factory Email Extraction
数据集地址：https://github.com/aryaniyaps/email-dataset
核心内容：一个包含100封合成工厂生产邮件的语料库，以及用于从邮件中提取结构化信息的处理脚本和机器学习模型。

数据内容与格式

原始数据文件：data.txt
- 格式：纯文本文件。
- 内容：包含100封电子邮件。
- 每封邮件格式：
  - 以 -----EMAIL START----- 和 -----EMAIL END----- 包裹。
  - 包含 To:、From: 和 Subject: 邮件头。
  - 邮件正文为自由格式，包含嵌入式生产细节，如序列号、物品名称、描述、规格、数量和截止日期。这些信息使用一致的锚定短语表述（例如 Serial Number SN-0001、item named "..."、item description is: ...）。
结构化输出文件：output.csv
- 格式：CSV文件，UTF-8编码，包含标题行。
- 内容：每封邮件对应一行数据，包含原始文本和提取出的字段。

数据结构 (`output.csv` 列说明)

source_email：完整的原始邮件文本（不包括 -----EMAIL START/END----- 标记）。
to：从 To: 邮件头解析出的收件人邮箱地址。
from：从 From: 邮件头解析出的发件人邮箱地址。
subject：从 Subject: 邮件头解析出的邮件主题。
body：仅邮件正文文本。
serial_number：提取的生产序列号（例如 SN-0001）。
item_name：提取的物品名称。
item_description：提取的物品简短描述。
item_specification：提取的结构化规格字符串（例如 Material=Alloy Steel; Teeth=32; ...）。
item_quantity：提取的请求数量。
item_deadline：提取的请求截止日期（格式 YYYY-MM-DD）。

数据处理与模型

正则提取脚本：data_processing.py 可将 data.txt 解析并转换为 output.csv。
机器学习模型：一个基于 scikit-learn 的命名实体识别模型，用于从邮件正文中自动提取6个结构化字段。
- 提取字段与标签：
  - serial_number (SERIAL)
  - item_name (ITEM_NAME)
  - item_description (ITEM_DESC)
  - item_specification (ITEM_SPEC)
  - item_quantity (ITEM_QTY)
  - item_deadline (ITEM_DEADLINE)
- 模型性能（80/20训练-测试集划分评估）：
  - 令牌级测试准确率：99.93%
  - 字段级完全匹配率（全部6个字段）：100.0%

预期用途

为从半结构化电子邮件中进行基于正则表达式的信息提取提供原型设计。
为学习从邮件文本中提取实体（序列号、物品名称、规格等）的NLP模型构建训练和评估集。
演示端到端工作流程：非结构化文本 → 解析 → CSV → 在 pandas 或 SQL 中进行下游分析。

搜集汇总

数据集介绍

构建方式

在工业自动化与生产管理领域，Factory Email Extraction 数据集通过合成方法构建了一个包含100封工厂生产邮件的语料库。每封邮件均以明确的起始和结束标记分隔，并包含标准的邮件头部信息，如收件人、发件人和主题。邮件正文部分采用自然语言描述生产细节，同时嵌入了一系列结构化的锚点短语，例如序列号、产品名称、描述、规格、数量和截止日期。这种设计确保了数据既具有真实邮件文本的流畅性，又保持了关键信息的可提取性，为后续的信息抽取任务提供了高质量的标注基础。

使用方法

使用该数据集时，用户可通过两种主要途径提取结构化信息。一是运行基于正则表达式的脚本`data_processing.py`，直接解析原始文本文件`data.txt`并生成包含所有字段的`output.csv`文件。二是利用项目中预训练的命名实体识别模型，通过`predict.py`脚本对邮件内容进行智能抽取，该模型采用词级BIO标注和逻辑回归分类器，在测试集上展现出极高的准确率。用户可将提取后的结构化数据用于生产流程分析、订单管理系统的原型开发，或作为训练集以优化更复杂的自然语言处理模型。

背景与挑战

背景概述

Factory Email Extraction 数据集聚焦于工业制造场景中的电子邮件信息抽取任务，其创建旨在应对生产环境中大量半结构化文本数据自动化处理的迫切需求。该数据集由匿名研究团队于近期构建，核心研究问题在于如何从自然语言格式的工厂生产邮件中精准提取关键实体字段，如序列号、物品名称、规格及交付期限等，以支持生产计划与供应链管理的数字化进程。通过提供包含100封合成邮件的语料库及配套的命名实体识别模型，该数据集为信息抽取领域，特别是工业自然语言处理应用，提供了宝贵的基准资源，推动了结构化数据生成技术的实用化发展。

当前挑战

该数据集所针对的领域挑战在于工业电子邮件文本的语义复杂性，其内容虽遵循一定模式，但实体表述存在自然语言变异，如同义词替换、句式灵活及缩写多样，要求模型具备稳健的上下文理解能力以准确区分实体边界。在构建过程中，挑战主要源于合成数据与真实场景的差距：为确保标注一致性，邮件内容采用了固定锚点短语，这可能削弱模型对真实世界中不规则表述的泛化性能；同时，有限的样本规模虽保障了高精度结果，但也可能制约模型在更广泛工业文本上的适应能力。

常用场景

经典使用场景

在工业自动化与自然语言处理交叉领域，Factory Email Extraction数据集为研究半结构化文本的信息抽取提供了典型范例。该数据集模拟了工厂生产环境中常见的电子邮件通信，其中嵌入了序列号、产品名称、规格描述等关键生产信息。研究者通常利用此数据集来训练和评估命名实体识别模型，特别是针对工业场景下的实体抽取任务，如从自由文本中精准提取结构化字段，从而验证模型在特定领域文本上的泛化能力与鲁棒性。

解决学术问题

该数据集有效解决了自然语言处理中实体识别任务在工业文本上的适配性问题。传统实体识别模型往往在通用领域表现良好，但在专业术语密集、表述模式固定的工业电子邮件中可能遭遇性能瓶颈。通过提供标注一致的训练样本，该数据集支持研究者开发针对性的特征工程与模型优化策略，提升了模型对工业实体如序列号、产品规格的识别精度，为领域自适应与少样本学习等前沿研究方向提供了实证基础。

实际应用

在实际工业场景中，该数据集可直接应用于生产管理系统的自动化信息处理流程。例如，制造企业可通过集成基于此数据集训练的模型，自动解析来自供应链或内部部门的订单邮件，将非结构化的文本内容转换为结构化的数据库记录，从而加速订单处理、库存管理与生产排程。这种自动化抽取能力显著减少了人工录入错误，提升了数据流转效率，并为后续的数据分析与决策支持系统提供了高质量的结构化输入。

数据集最近研究