tux.ai
收藏🔐 tux.ai - 混合PII检测与加密系统 数据集概述
数据集基本信息
- 数据集名称: tux.ai - Hybrid PII Detection & Encryption System
- 数据集地址: https://huggingface.co/datasets/tuxqeq/tux.ai
- 核心功能: 结合AI模型与规则模式匹配,对个人身份信息(PII)进行检测和加密
- 技术组合:
- AI模型: 微调Transformer模型,用于上下文PII检测
- Presidio: 基于规则的模式匹配,处理结构化数据(如SSN、信用卡、邮箱等)
检测的PII类型
支持12+种PII类型检测:
| 类别 | 说明 |
|---|---|
| 姓名 (PER) | 上下文中的个人姓名 |
| 邮箱 (EMAIL) | 标准邮箱地址 |
| 电话 (PHONE) | 多种格式的电话号码 |
| 社会安全号码 (SSN) | 社会安全号码 |
| 信用卡 (CREDIT_CARD) | 信用卡号 |
| 地址 (LOC) | 物理地址 |
| 组织 (ORG) | 公司名称 |
| 出生日期 (DOB) | 出生日期 |
| 驾照 (LICENSE) | 驾驶执照 |
| 护照 (PASSPORT) | 护照号码 |
| IP地址 (IP_ADDRESS) | IP地址 |
| 医疗记录 (MRN) | 医疗记录编号 |
| 银行账户 (BANK_ACCOUNT) | 账号 |
| 用户名 (USERNAME) | 用户登录名 |
训练数据详情
- 训练样本量: 100,000+样本
- 负样本比例: 40%的负样本(不含PII的句子)用于减少误报
- 负样本示例:
- "The company is doing well."
- "Personal information should be protected."
- "Contact information has been updated."
- 总计60+种变化以增强上下文理解
性能指标
- 精确率(Precision): 高(特定实体类型,负样本减少误报)
- 召回率(Recall): 高(混合方法同时捕获上下文和模式匹配的PII)
- 处理速度: Apple M1上约1000 token/秒
项目核心功能
- 混合检测: 结合AI上下文理解与正则表达式模式匹配
- AES加密: 对检测到的PII进行可逆加密
- 高准确率: 经过100K+样本训练,含40%负样本降低误报
- 可定制化: 可调整AI置信度阈值、Presidio-only模式、自定义加密密钥
项目结构
tux.ai/ ├── data/ # 训练数据集 │ ├── train_data.json # 小型数据集 │ ├── train_data_advanced.json # 中型数据集 │ ├── train_data_full.json # 大型数据集 │ └── train_data_large.json # 100K样本(生成) ├── models/ # 训练好的模型 │ ├── pii_model/ # 基础模型 │ ├── pii_model_advanced/ # 中阶模型 │ ├── pii_model_full/ # 完整模型 │ └── pii_model_large/ # 生产模型(100K样本) ├── src/ # 源代码 │ ├── generate_data.py # 合成数据生成器 │ ├── train.py # 模型训练流水线 │ ├── inference.py # 简单推理(仅AI) │ └── hybrid_detect.py # 混合检测+加密 ├── notebooks/ # Jupyter实验 ├── encrypt_pii.py # 仅Presidio加密(旧版) ├── requirements.txt # Python依赖 └── README.md # 说明文件
使用方式
- 检测模式: 可检测文本、文件中的PII
- 加密模式: 可对检测到的PII进行AES加密
- 交互模式: 支持交互式输入文本检测
- 自定义选项: 支持调整置信度阈值、选择不同模型、切换Presidio-only模式




