Clinical Text De-Identification & Normalization Engine
收藏数据集概述:Clinical Text De-Identification & Normalization Engine
这是一个超高速、无服务器、生产就绪的临床自然语言处理(NLP)引擎,专为医疗领域的检索增强生成(RAG)流水线、大语言模型(LLM)数据摄入和临床记录脱敏而优化。
核心功能
- HIPAA/MIMIC-III 合规脱敏:自动将姓名、出生日期、入院日期、社会安全号码(SSN)、意大利税号(Codice Fiscale)、医院名称和联系方式等PHI/PII信息替换为安全令牌(如
[REDACTED_NAME]、[REDACTED_DATE])。 - 临床缩写扩展:在内存中扩展超过28种医疗缩写(如
HTN->hypertension,DM->diabetes mellitus,BID->twice a day)。 - RAG就绪段落分块:根据用户定义的令牌/字符限制(例如
max_tokens=500),智能地按句子和段落边界对文本进行分块。 - 低延迟与可扩展性:基于Google Cloud Run无服务器架构运行,平均延迟低于120毫秒。
API 请求与响应示例
-
请求端点:
POST /api/v1/clinical-sanitize -
请求格式(JSON): json { "clinical_note": "Patient Mario Rossi (SSN: 123-456-7890) presented on 2026-06-25 with worsening HTN and DM. Advised BID medication.", "max_tokens": 500 }
-
响应格式(200 OK,JSON): json { "status": "success", "metadata": { "processed_chars": 128, "chunks_count": 1 }, "sanitized_text": "Patient [REDACTED_NAME] (SSN: [REDACTED_ID]) presented on [REDACTED_DATE] with worsening hypertension and diabetes mellitus. Advised twice a day medication.", "normalized_terms_found": [ { "term": "HTN", "expansion": "hypertension", "count": 1 }, { "term": "DM", "expansion": "diabetes mellitus", "count": 1 }, { "term": "BID", "expansion": "twice a day", "count": 1 } ], "chunks": [ { "chunk_id": 1, "text": "Patient [REDACTED_NAME] (SSN: [REDACTED_ID]) presented on [REDACTED_DATE] with worsening hypertension and diabetes mellitus. Advised twice a day medication." } ] }
订阅计划
- Basic (Freemium):每月100次免费请求(适合测试)。
- Pro:每月5,000次请求($29/月),超出部分$0.01/次。
- Ultra:每月25,000次请求($99/月),超出部分$0.005/次。
- Mega:每月100,000次请求($299/月),超出部分$0.002/次。
其他信息
- 类别:Medical
- 创建者:Nicola Mastromarino
- 订阅者数:1
- 流行度:8.5
- 服务级别:100%
- 延迟:243ms



