tux.ai

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/tuxqeq/tux.ai

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是用于训练和评估tux.ai混合个人身份信息检测与加密系统的合成数据。数据集旨在为AI模型提供丰富的上下文示例，以识别和分类多种类型的PII，同时包含大量负样本以减少误报。数据内容包含超过12种PII类型的标注样本，具体包括：姓名、电子邮件地址、电话号码、社会安全号码、信用卡号、物理地址、组织名称、出生日期、驾照号码、护照号码、IP地址、医疗记录号、银行账户号和用户名。为了提升模型区分能力，数据集中特意包含了40%的负样本，即不包含任何PII的普通文本句子，共计60多种变体。数据规模推荐为100,000个训练样本，通过项目内的脚本程序化生成，并以JSON格式存储。该数据集适用于开发隐私保护工具、数据脱敏管道以及任何需要高精度自动识别和加密文本中敏感个人信息的应用场景。

This dataset is synthetic data used for training and evaluating the tux.ai hybrid personal identifiable information detection and encryption system. It aims to provide rich contextual examples for AI models to identify and classify various types of PII, while including a large number of negative samples to reduce false positives. The data content includes labeled samples for over 12 PII types, specifically: name, email address, phone number, social security number, credit card number, physical address, organization name, date of birth, drivers license number, passport number, IP address, medical record number, bank account number, and username. To enhance model discrimination, the dataset intentionally contains 40% negative samples, which are ordinary text sentences without any PII, with over 60 variants. The recommended data scale for production environments is 100,000 training samples, generated programmatically via a script within the project and stored in JSON format. This dataset is suitable for developing privacy protection tools, data anonymization pipelines, and any application scenarios requiring high-precision automatic identification and encryption of sensitive personal information in text.

创建时间：

2026-05-20

原始信息汇总

🔐 tux.ai - 混合PII检测与加密系统数据集概述

数据集基本信息

数据集名称: tux.ai - Hybrid PII Detection & Encryption System
数据集地址: https://huggingface.co/datasets/tuxqeq/tux.ai
核心功能: 结合AI模型与规则模式匹配，对个人身份信息（PII）进行检测和加密
技术组合:
- AI模型: 微调Transformer模型，用于上下文PII检测
- Presidio: 基于规则的模式匹配，处理结构化数据（如SSN、信用卡、邮箱等）

检测的PII类型

支持12+种PII类型检测：

类别	说明
姓名 (PER)	上下文中的个人姓名
邮箱 (EMAIL)	标准邮箱地址
电话 (PHONE)	多种格式的电话号码
社会安全号码 (SSN)	社会安全号码
信用卡 (CREDIT_CARD)	信用卡号
地址 (LOC)	物理地址
组织 (ORG)	公司名称
出生日期 (DOB)	出生日期
驾照 (LICENSE)	驾驶执照
护照 (PASSPORT)	护照号码
IP地址 (IP_ADDRESS)	IP地址
医疗记录 (MRN)	医疗记录编号
银行账户 (BANK_ACCOUNT)	账号
用户名 (USERNAME)	用户登录名

训练数据详情

训练样本量: 100,000+样本
负样本比例: 40%的负样本（不含PII的句子）用于减少误报
负样本示例:
- "The company is doing well."
- "Personal information should be protected."
- "Contact information has been updated."
- 总计60+种变化以增强上下文理解

性能指标

精确率（Precision）: 高（特定实体类型，负样本减少误报）
召回率（Recall）: 高（混合方法同时捕获上下文和模式匹配的PII）
处理速度: Apple M1上约1000 token/秒

项目核心功能

混合检测: 结合AI上下文理解与正则表达式模式匹配
AES加密: 对检测到的PII进行可逆加密
高准确率: 经过100K+样本训练，含40%负样本降低误报
可定制化: 可调整AI置信度阈值、Presidio-only模式、自定义加密密钥

项目结构

tux.ai/ ├── data/ # 训练数据集 │ ├── train_data.json # 小型数据集 │ ├── train_data_advanced.json # 中型数据集 │ ├── train_data_full.json # 大型数据集 │ └── train_data_large.json # 100K样本（生成） ├── models/ # 训练好的模型 │ ├── pii_model/ # 基础模型 │ ├── pii_model_advanced/ # 中阶模型 │ ├── pii_model_full/ # 完整模型 │ └── pii_model_large/ # 生产模型（100K样本） ├── src/ # 源代码 │ ├── generate_data.py # 合成数据生成器 │ ├── train.py # 模型训练流水线 │ ├── inference.py # 简单推理（仅AI） │ └── hybrid_detect.py # 混合检测+加密 ├── notebooks/ # Jupyter实验 ├── encrypt_pii.py # 仅Presidio加密（旧版） ├── requirements.txt # Python依赖 └── README.md # 说明文件

使用方式

检测模式: 可检测文本、文件中的PII
加密模式: 可对检测到的PII进行AES加密
交互模式: 支持交互式输入文本检测
自定义选项: 支持调整置信度阈值、选择不同模型、切换Presidio-only模式

搜集汇总

数据集介绍

构建方式

tux.ai数据集基于混合架构构建，融合了微调Transformer模型与微软Presidio规则引擎。通过合成数据生成器（src/generate_data.py）自动化生成包含12种以上个人身份信息类型的训练样本，数据规模可达10万条，其中40%为负样本（无PII语句）以降低误报率。结合人名、邮箱、SSN等结构化模板与语境化句子生成技术，形成高质量监督学习语料。模型训练采用Hugging Face Transformers框架，支持MPS GPU加速，训练流程包含数据加载、特征标注与多轮迭代优化。

特点

该数据集兼具深度语义理解与精确模式匹配的双重优势。AI模型擅长识别上下文中的非结构化PII（如姓名、地址），而Presidio规则引擎高效锁定邮箱、信用卡号等格式固定信息，二者互补提升召回率。负样本占比达40%，显著增强模型对非PII文本的判别力。支持灵活配置AI置信度阈值（0-1）与加密密钥，可切换为纯Presidio模式以降低计算开销。囊括银行账户、医疗记录等特殊类别，覆盖企业级隐私保护场景的广泛需求。

使用方法

用户可通过命令行直接调用src/hybrid_detect.py脚本，支持文本输入、文件批量处理与交互式模式。基础用法为检测PII位置，附加--encrypt参数可对识别信息进行AES加密存储。参数调整方面，--ai-threshold控制检测敏感度，--no-ai切换至纯规则引擎，--key指定自定义加密密钥（需16/24/32字节）。预训练模型存于models/目录，亦可从头训练：先运行generate_data.py生成合成数据，再通过train.py指定数据集与迭代轮次完成微调，生成的生产级模型用于后续推理。

背景与挑战

背景概述

tux.ai数据集由致力于数据隐私保护的研究人员创建，旨在应对个人信息日益增长的泄露风险。该数据集融合了基于微调Transformer的AI模型与Microsoft Presidio规则引擎，构建了一个混合型个人身份信息（PII）检测与加密系统。其核心研究问题聚焦于如何高精度地识别并保护文本中的敏感信息，涵盖姓名、邮箱、社保号、信用卡等12种以上PII类型。通过在100K样本（含40%负例）上训练，tux.ai显著降低了误报率，为自然语言处理在隐私安全领域的应用提供了关键支撑，对推动自动化数据脱敏与合规技术发展具有重要影响力。

当前挑战

tux.ai所解决的领域挑战在于传统简单规则匹配或单一AI模型无法兼顾PII检测的广度与精度，面临高误报率与低召回率的矛盾，尤其在上下文语境复杂的非结构化文本中，如“The company is doing well.”这类无PII语句易被错误标记。构建过程中，挑战包括生成涵盖多样化PII类型与格式的合成训练数据（如不同地域电话格式），平衡正负样本比例以增强模型鲁棒性，以及整合AI与规则引擎的混合架构，解决两者在检测阈值、效率和准确率上的协同优化问题。此外，在Apple Silicon等异构硬件上保持训练效率与内存管理也构成技术难题。

常用场景

经典使用场景

tux.ai数据集在学术与工业领域中，最经典的使用场景是构建与评估混合型个人身份信息（PII）检测与加密系统。该数据集融合了基于微调Transformer的深度语义理解与Presidio的规则匹配机制，支持对姓名、邮箱、电话、社保号、信用卡号码、地址、出生日期等超过12类敏感实体进行精准定位。凭借10万条训练样本与40%的负样本设计，研究者能够高效验证模型在复杂文本中识别隐式PII的鲁棒性，同时通过可配置的置信度阈值与纯规则模式，灵活适应不同场景下的隐私保护需求。

实际应用

在实际应用中，tux.ai数据集支撑了医疗记录去标识化、金融交易日志脱敏以及用户通讯数据合规清洗等关键任务。医疗机构可利用其AES可逆加密特性，在共享患者病历前自动化遮盖姓名与身份证号；金融企业借助交互式命令行工具，快速批量处理包含银行卡号的用户咨询文本；面向GDPR或CCPA合规的审计流程，则通过调节AI置信度阈值或切换到纯规则模式，实现细粒度的隐私风险管控。该数据集生成的模型支持Apple Silicon等硬件加速，确保高吞吐场景下的实时处理能力。

衍生相关工作

该数据集衍生出的相关工作包括：一是基于数据引擎生成的100K样本训练管线，衍生出面向中文、阿拉伯语等小语种的自适应PII检测框架；二是围绕混合架构涌现出大量改进工作，如引入对比学习增强上下文语义判别、或在规则引擎中融合动态实体黑名单以适配新兴敏感字段；三是在加密环节，有研究者探索与安全多方计算或联邦学习协议的集成，在保护PII的同时实现跨机构数据协作。这些衍生工作共同构建了从数据生成、模型训练到隐私保护部署的完整技术生态。

以上内容由遇见数据集搜集并总结生成