Agent Mask - PII Detection & De-identification
收藏Snowflake2026-05-19 更新2026-05-20 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZU6Z75L5V1
下载链接
链接失效反馈官方服务:
资源简介:
# Agent Mask
Detect and mask PII in support tickets, call transcripts, intake forms,
chat logs, and AI agent outputs — entirely inside your Snowflake account.
Call **mask(text_column)** from any SQL — dbt models, Airflow DAGs, Snowflake
tasks, batch ETL. The function is the endpoint to a container service
running on dedicated GPU compute in your account. Scale horizontally by
adding compute pool nodes.
Zero data egress. No external API calls. Your data never leaves your account.
## Highlights
- 99%+ name detection accuracy on English text
- Custom entity detection — plain-English description or regex
- Coreference — "John Smith", "John", "Dr. Smith" resolve to the same placeholder
- Works on text, PDFs, DOCX, images (OCR), and DICOM
- Under 15 minutes from install to first masked row
## Built-in entity types
- **Identity** — PERSON, LOCATION, ORGANIZATION, NRP
- **Contact** — EMAIL_ADDRESS, PHONE_NUMBER, URL, IP_ADDRESS
- **Financial** — CREDIT_CARD, US_BANK_NUMBER
- **Gov IDs** — US_SSN, US_ITIN, US_PASSPORT
- **Healthcare** — MEDICARE_ID, HEALTH_PLAN_ID, NPI, DEA_NUMBER, AGE_OVER_89
- **Geo / Time** — ZIP_CODE, DATE_TIME
Opt-in via the **entities** parameter: IBAN_CODE, VEHICLE_VIN, US_DRIVER_LICENSE, CRYPTO.
## Masking operators
Configurable per entity type.
- type_numbered (default) — indexed placeholders: [PERSON_1], [PERSON_2]
- entity_type — type label only: [PERSON]
- constant — fixed string: [REDACTED]
- mask — character masking: *****
- hash — deterministic SHA-256/512 for analytics joins
- encrypt — deterministic AES-SIV; reversible with the key
- faker — realistic synthetic data
- keep — detect only; record in the ledger, leave text unchanged
提供机构:
Agent Mask
创建时间:
2026-05-17
原始信息汇总
好的,这是您提供的数据集详情页面的关键信息提炼:
数据集名称:Agent Mask - PII Detection & De-identification
概述
这是一个在 Snowflake 平台上运行的 PII(个人身份信息)检测与去标识化工具。它作为一个单一的 SQL 函数 mask() 提供,能够直接在用户的 Snowflake 账户内运行,无需将数据传输到外部,从而实现了零数据流出。
核心功能
- PII 检测与掩码:通过一个 SQL 函数
mask()即可检测和掩码文本中的 PII,支持在 dbt 模型、Airflow DAGs、Snowflake 任务及批处理 ETL 中使用。 - 零数据流出:所有处理均在用户 Snowflake 账户内的专用 GPU 计算池上完成,不调用外部 API。
- 高性能:对英文文本的人名检测准确率达到 99% 以上。
- 文件支持:支持处理文本、PDF、DOCX、图像(OCR)和 DICOM 文件。
- 核心指代消解(Coreference):能够将同一实体的不同指代(如 "John Smith", "John", "Dr. Smith")识别并替换为同一个占位符。
- 自定义实体:支持通过纯英文描述或正则表达式定义检测的实体类型。
- 快速部署:从安装到首次数据掩码,时间不超过 15 分钟。
内置实体类型
涵盖多种类别,包括:
- 身份标识:人名、地点、组织、NRP
- 联系方式:邮箱地址、电话号码、URL、IP地址
- 金融信息:信用卡号、美国银行账号
- 政府ID:美国社保号、ITIN、护照号
- 医疗健康:医疗保险ID、健康计划ID、NPI、DEA号码、超过89岁的年龄
- 地理/时间:邮编、日期时间
掩码操作器(Masking Operators)
可针对不同实体类型配置掩码策略,包括:
type_numbered:带索引的占位符(如[PERSON_1])entity_type:仅显示类型标签(如[PERSON])constant:固定字符串(如[REDACTED])mask:字符掩码(如*****)hash:确定性哈希(SHA-256/512),用于分析连接encrypt:确定性 AES-SIV 加密,可用密钥解密faker:生成逼真的合成数据keep:仅检测并记录,不改变原文
业务需求
- 解锁分析数据:让数据团队安全地查询和共享之前需要合规批准的文本表。
- 安全的AI/ML训练:对去标识化的文本进行模型训练和微调,避免向供应商或模型工件暴露PII。
- 文档编辑:在对外共享之前,对 PDF 和 DOCX 文档进行编辑(输出可搜索文本层)。
交付方式
- 类型:Native App(原生应用)
- 访问权限:无限制访问
- 费用:免费 + Snowflake 基础设施费用
- 安全:已完成 Snowflake 安全审查,并采用基于角色的访问控制(RBAC)。
联系信息
- 销售与支持:info@agentmask.io
- 提供商:Agent Mask(Raccoon Data)



