five

Agent Mask - PII Detection & De-identification

收藏
Snowflake2026-05-19 更新2026-05-20 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZU6Z75L5V1
下载链接
链接失效反馈
官方服务:
资源简介:
# Agent Mask Detect and mask PII in support tickets, call transcripts, intake forms, chat logs, and AI agent outputs — entirely inside your Snowflake account. Call **mask(text_column)** from any SQL — dbt models, Airflow DAGs, Snowflake tasks, batch ETL. The function is the endpoint to a container service running on dedicated GPU compute in your account. Scale horizontally by adding compute pool nodes. Zero data egress. No external API calls. Your data never leaves your account. ## Highlights - 99%+ name detection accuracy on English text - Custom entity detection — plain-English description or regex - Coreference — "John Smith", "John", "Dr. Smith" resolve to the same placeholder - Works on text, PDFs, DOCX, images (OCR), and DICOM - Under 15 minutes from install to first masked row ## Built-in entity types - **Identity** — PERSON, LOCATION, ORGANIZATION, NRP - **Contact** — EMAIL_ADDRESS, PHONE_NUMBER, URL, IP_ADDRESS - **Financial** — CREDIT_CARD, US_BANK_NUMBER - **Gov IDs** — US_SSN, US_ITIN, US_PASSPORT - **Healthcare** — MEDICARE_ID, HEALTH_PLAN_ID, NPI, DEA_NUMBER, AGE_OVER_89 - **Geo / Time** — ZIP_CODE, DATE_TIME Opt-in via the **entities** parameter: IBAN_CODE, VEHICLE_VIN, US_DRIVER_LICENSE, CRYPTO. ## Masking operators Configurable per entity type. - type_numbered (default) — indexed placeholders: [PERSON_1], [PERSON_2] - entity_type — type label only: [PERSON] - constant — fixed string: [REDACTED] - mask — character masking: ***** - hash — deterministic SHA-256/512 for analytics joins - encrypt — deterministic AES-SIV; reversible with the key - faker — realistic synthetic data - keep — detect only; record in the ledger, leave text unchanged
提供机构:
Agent Mask
创建时间:
2026-05-17
原始信息汇总

好的,这是您提供的数据集详情页面的关键信息提炼:

数据集名称:Agent Mask - PII Detection & De-identification

概述

这是一个在 Snowflake 平台上运行的 PII(个人身份信息)检测与去标识化工具。它作为一个单一的 SQL 函数 mask() 提供,能够直接在用户的 Snowflake 账户内运行,无需将数据传输到外部,从而实现了零数据流出。

核心功能

  • PII 检测与掩码:通过一个 SQL 函数 mask() 即可检测和掩码文本中的 PII,支持在 dbt 模型、Airflow DAGs、Snowflake 任务及批处理 ETL 中使用。
  • 零数据流出:所有处理均在用户 Snowflake 账户内的专用 GPU 计算池上完成,不调用外部 API。
  • 高性能:对英文文本的人名检测准确率达到 99% 以上。
  • 文件支持:支持处理文本、PDF、DOCX、图像(OCR)和 DICOM 文件。
  • 核心指代消解(Coreference):能够将同一实体的不同指代(如 "John Smith", "John", "Dr. Smith")识别并替换为同一个占位符。
  • 自定义实体:支持通过纯英文描述或正则表达式定义检测的实体类型。
  • 快速部署:从安装到首次数据掩码,时间不超过 15 分钟。

内置实体类型

涵盖多种类别,包括:

  • 身份标识:人名、地点、组织、NRP
  • 联系方式:邮箱地址、电话号码、URL、IP地址
  • 金融信息:信用卡号、美国银行账号
  • 政府ID:美国社保号、ITIN、护照号
  • 医疗健康:医疗保险ID、健康计划ID、NPI、DEA号码、超过89岁的年龄
  • 地理/时间:邮编、日期时间

掩码操作器(Masking Operators)

可针对不同实体类型配置掩码策略,包括:

  • type_numbered:带索引的占位符(如 [PERSON_1]
  • entity_type:仅显示类型标签(如 [PERSON]
  • constant:固定字符串(如 [REDACTED]
  • mask:字符掩码(如 *****
  • hash:确定性哈希(SHA-256/512),用于分析连接
  • encrypt:确定性 AES-SIV 加密,可用密钥解密
  • faker:生成逼真的合成数据
  • keep:仅检测并记录,不改变原文

业务需求

  • 解锁分析数据:让数据团队安全地查询和共享之前需要合规批准的文本表。
  • 安全的AI/ML训练:对去标识化的文本进行模型训练和微调,避免向供应商或模型工件暴露PII。
  • 文档编辑:在对外共享之前,对 PDF 和 DOCX 文档进行编辑(输出可搜索文本层)。

交付方式

  • 类型:Native App(原生应用)
  • 访问权限:无限制访问
  • 费用:免费 + Snowflake 基础设施费用
  • 安全:已完成 Snowflake 安全审查,并采用基于角色的访问控制(RBAC)。

联系信息

  • 销售与支持:info@agentmask.io
  • 提供商:Agent Mask(Raccoon Data)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作