DS_Final_Project_JZ_RF_Parking_Ticket_AI_DataSet

Hugging Face2026-01-22 更新2026-01-23 收录

下载链接：

https://huggingface.co/datasets/Joe-Zeloof/DS_Final_Project_JZ_RF_Parking_Ticket_AI_DataSet

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库包含一个合成的停车罚单“案件叙述”数据集，由**Qwen/Qwen3-0.6B**语言模型生成，用于数据科学课程项目。每条记录以**约5行短文本**描述一起停车违规行为，包括地点、时间、涉及的车辆、违规记录方式、司机的解释以及标志清晰度等上下文细节。 **重要提示：** 该数据集**完全合成**，**不**基于真实法律记录。不得用于法律建议或现实世界的执法决策。

创建时间：

2026-01-19

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Synthetic Parking Ticket Cases (10,000)
数据集描述: 这是一个用于数据科学课程项目的合成数据集，包含由 Qwen/Qwen3-0.6B 语言模型生成的停车罚单“案例叙述”。每条记录以大约5行短文本描述一次停车违规行为，包含地点、时间、涉及车辆、违规记录方式、驾驶员解释以及标志清晰度等上下文细节。
重要声明: 该数据集完全为合成数据，并非基于真实的法律记录。不得用于法律建议或现实世界的执法决策。

数据集内容

文件列表

parking_cases_final.csv — 经过探索性数据分析（EDA）并添加了衍生列后的最终数据集。
eda......ipynb — 探索性数据分析笔记本。
synthetic......ipynb — 合成数据生成笔记本。

数据列说明（enriched CSV）

核心标识:
- case_id (int): 唯一标识符 (1..10,000)。
核心文本:
- offense_description (string): 描述停车违规行为的短篇叙述（约5行）。
文本统计特征:
- word_count, char_count, line_count。
- is_exact_5_lines (boolean)。
- has_non_ascii (boolean)。
启发式提取特征（来自文本）:
- recording_method (ALPR / CCTV / Photos / Handheld/Officer / Unknown)。
- car_make_guess。
注意: 提取的字段基于启发式方法（关键词/正则表达式），存在一定噪声，旨在丰富EDA并支持结构化建模。

数据生成方法

模型: Qwen/Qwen3-0.6B。
生成策略:
- 提示模型为每个案例生成恰好5行短文本。
- 使用批量GPU生成以提高速度。
- 分批保存以降低失败风险并允许恢复。
清洗步骤:
- 使用字母字符比例阈值过滤掉低质量输出（例如以标点符号为主的字符串）。
- （可选）过滤掉过短的叙述（例如，少于20个单词）以保证数据集一致性。

探索性数据分析（EDA）摘要

包含的笔记本 eda.ipynb 执行了探索性数据分析，评估内容包括：

数据集大小、缺失值、重复项。
文本长度分布：每案例字符数、单词数、行数。
数据质量检查：恰好5行的案例百分比、包含非ASCII字符的案例百分比、低信息“垃圾”输出（标点符号过多的字符串）检测。
启发式提取摘要：记录方法频率（CCTV/照片/警官设备/ALPR）、基于关键词的近似汽车品牌分布。

关键质量说明

合成文本模型偶尔会产生损坏的输出（例如，纯标点符号字符串）。为解决此问题，清洗步骤保留了alpha_ratio超过选定阈值（例如，>= 0.50，即大多数字符为非字母字符）的案例。
增强数据集中的提取列是近似的，应被视为有噪声的特征。

示例记录（说明性）

典型的 offense_description 包含：

具体城市+街道/地标以及确切的停车情境（例如，消防栓、装卸区）。
现实的日期/时间。
车辆详情（年份/品牌/型号/颜色 + 类似车牌的字符串）。
证据方法（警官手持设备、照片、CCTV、ALPR）。
驾驶员的解释（送货、紧急情况、找不到停车位等）。
标志/道路标记是否清晰可见。

预期用途

EDA实践（文本分析、清洗和质量检查）。
NLP特征工程（长度特征、关键词提取、弱标签）。
基线建模任务（例如，从文本中分类违规类型或标志清晰度）。
演示完整的合成数据流程：生成 → 清洗 → EDA → 发布。

局限性与伦理

非真实数据: 所有案例均为合成，可能无法反映真实的执法语言。
偏见与真实性: 内容取决于提示设计和模型行为。数据集可能包含刻板印象或不真实的细节。
无法律效力: 请勿用于法律决策、政策制定或执法。

数据加载

使用 pandas

python import pandas as pd df = pd.read_csv("parking_cases_final.csv")

搜集汇总

数据集介绍

构建方式

在数据科学课程项目的背景下，该数据集通过Qwen/Qwen3-0.6B语言模型生成，采用批量GPU加速策略，以固定格式提示模型产出每条约5行的停车违规案例叙述。生成过程中实施了严格的质量控制，包括基于字母字符比例阈值过滤低质量输出，确保文本的连贯性与信息密度，最终形成包含一万条记录的合成数据集。

特点

该数据集以结构化叙事为特色，每条记录均遵循约5行的紧凑格式，涵盖地点、时间、车辆信息、记录方式及驾驶员解释等多维上下文。数据集经过探索性数据分析增强，衍生出文本统计特征与基于关键词的启发式提取字段，如记录方法与车辆品牌推测，为自然语言处理任务提供了丰富的弱监督信号与特征工程基础。

使用方法

数据集适用于数据科学教学与实践，支持探索性数据分析、文本质量评估及特征工程演练。用户可通过pandas库直接加载CSV文件，利用提取的统计字段与启发式标签进行自然语言处理建模，例如违规分类或标识清晰度预测，但需注意合成数据的局限性，避免用于真实法律决策。

背景与挑战

背景概述

在数据科学与自然语言处理领域，合成数据集的构建已成为模型训练与算法验证的重要辅助手段。DS_Final_Project_JZ_RF_Parking_Ticket_AI_DataSet作为一个完全合成的停车罚单案例叙述数据集，由数据科学课程项目团队于近期创建，其核心研究问题聚焦于通过生成式语言模型模拟现实世界中的行政文书文本，旨在为文本分析、特征工程及基础建模任务提供可控且可扩展的语料资源。该数据集利用Qwen/Qwen3-0.6B模型生成约一万条结构化叙事，每条严格遵循五短行格式，涵盖地点、时间、车辆信息、证据采集方式及驾驶员解释等多维度上下文细节，为教育与实践场景中的自然语言处理流程演示提供了标准化案例。

当前挑战

该数据集所针对的领域问题在于行政文本的自动化理解与信息提取，其挑战体现为从非结构化叙事中准确识别实体、推断违规类型及评估证据有效性，这对模型的语义解析与上下文推理能力提出了较高要求。在构建过程中，合成文本的生成面临质量控制的难题，包括模型可能输出无意义的标点符号序列或偏离现实逻辑的叙述，需通过字母字符比例阈值等启发式方法进行过滤；同时，基于关键词与正则表达式的启发式特征提取会引入显著噪声，导致如记录方法或车辆品牌等派生字段的可靠性受限，这要求后续分析中需谨慎处理这些近似特征。

常用场景

经典使用场景

在数据科学教育领域，该数据集常被用作教学工具，以模拟真实世界中的文本数据处理流程。学生通过探索性数据分析（EDA）实践，学习如何清洗、评估合成文本数据的质量，并基于启发式提取的特征进行结构化建模。这种场景有助于培养学生在自然语言处理（NLP）中处理非结构化文本的能力，同时避免涉及敏感真实数据带来的伦理风险。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在合成数据生成与质量评估方法上。例如，基于Qwen模型的大规模文本生成策略优化、针对低质量输出的过滤算法（如字母比率阈值法），以及从非结构化文本中提取结构化特征的启发式技术。这些工作为教育领域的数据科学项目设立了标准流程，并促进了合成数据在NLP任务中的可重复性研究。

数据集最近研究