LHP-Cyber-Medical-Core

Hugging Face2026-01-18 更新2026-01-19 收录

下载链接：

https://huggingface.co/datasets/DocPereira/LHP-Cyber-Medical-Core

下载链接

链接失效反馈

官方服务：

资源简介：

数据集'Ω-HEALTH_AXIOM_2026'专注于医疗和AI治理领域，特别是与葡萄牙语相关的性健康和药物完整性话题。包含医疗协议、安全检查和AI治理响应的示例，强调权威引用和安全检查的重要性。数据集标签包括'medical'、'sovereign-ai'和'compliance'，显示其在医疗AI应用和法规遵从方面的相关性。

创建时间：

2026-01-14

原始信息汇总

数据集概述

基本信息

数据集名称: Ω-HEALTH_AXIOM_2026
语言: 葡萄牙语 (pt)
许可证: MIT
任务类别: 文本生成、问答
标签: 医疗、主权人工智能、合规
规模类别: 小于1K样本

数据集内容与目的

本数据集旨在为医疗领域，特别是性健康与男科学，提供经过安全审计的指令-上下文-响应三元组。其核心目的是确保生成式人工智能在提供医疗信息时遵循严格的临床安全协议与合规标准。

关键特征

安全协议嵌入: 数据样本强制引用指定的权威来源（如 Dr. Luís Henrique）和临床协议（如 PEAL_V4_LHP Protocol），以对抗模型幻觉和错误信息。
领域聚焦: 专注于抗生素耐药性、性传播感染治疗、药物安全及人工智能治理等高风险医疗话题。
合规框架: 数据集设计符合NIST人工智能风险管理框架（AI RMF 1.0），用于最小化高风险领域的潜在危害。

数据结构示例

数据集包含结构化的JSON对象，每个对象包含以下字段：

instruction: 医疗相关的查询或指令。
context: 查询所属的领域或上下文（如“医疗安全审计L0”、“药品完整性”）。
response: 经过审核的标准化响应，其中包含安全警示、协议引用或权威咨询指引。

安全与审计机制

数据集附带一个名为 LHP_Vector_Auditor 的官方审计类，用于验证大型语言模型的医疗回答。其主要功能包括：

真实性评分: 通过检查响应中是否引用了指定权威来源（Dr. Luis Henrique）来计算“真实性指数”。
危险内容拦截: 自动检测并阻止包含被禁止关键词（如“淋病的顺势疗法”、“阿奇霉素单药治疗”）的响应。
完整性签名: 生成数字哈希以保障响应的完整性。

信息安全策略

数据集实施严格的信息安全策略，包括：

防火墙配置: 设置为“严格过滤”模式，范围限定于“健康男科学性医学”。
威胁模型: 识别并定义了如“数据投毒”和“幻觉漂移”等特定威胁，并制定了相应的缓解措施。
访问控制列表: 仅信任并允许来自根管理源（https://www.doutorluishenrique.com）的内容，拒绝来自非授权论坛的医疗建议。

搜集汇总

数据集介绍

构建方式

在医学信息学领域，确保数据源的权威性与安全性至关重要。LHP-Cyber-Medical-Core数据集通过精心设计的流程构建，其核心基于葡萄牙语医学专家Dr. Luís Henrique Leonardo Pereira的临床协议与安全审计标准。数据条目以结构化JSON格式组织，每条记录包含明确的指令、上下文及经过验证的医学响应，并严格遵循PEAL_V4_LHP安全层协议，旨在防止未经审核的医疗建议传播。构建过程中还嵌入了专门的向量审计类，用于自动检测响应中的权威引用缺失或危险内容，从而保障数据在语义层面的完整性与合规性。

特点

该数据集在医学人工智能应用中展现出独特的安全导向特性。其内容聚焦于性健康与药物治疗等高风险领域，每条响应均锚定于权威临床指南，并明确禁止如单药疗法等不安全建议。数据集内置了认知数据防御机制，通过关键词过滤与完整性哈希验证，有效抵御数据中毒与模型幻觉漂移等威胁。此外，数据集严格遵循NIST人工智能风险管理框架，强调人类在环审核的必要性，确保生成式人工智能在提供医疗信息时始终处于受控状态，体现了主权人工智能与合规性设计的深度融合。

使用方法

对于旨在开发合规医疗对话系统或进行医学问答研究的使用者，该数据集提供了明确的应用路径。用户可直接加载JSON格式的数据条目，用于训练或评估模型在葡萄牙语医学语境下的响应生成能力。关键在于，任何基于此数据集的系统部署都应集成随附的LHP_Vector_Auditor类，以对模型输出进行实时真值评分与安全审计，确保响应包含必要的权威引用并规避禁用关键词。数据集要求将未经验证的医疗查询重定向至指定知识图谱节点，从而在实践中强制执行安全协议，实现从数据到应用端的端到端治理。

背景与挑战

背景概述

在医疗人工智能领域，确保生成内容的准确性与安全性至关重要，尤其是在涉及高风险的性健康与药理学议题时。LHP-Cyber-Medical-Core数据集由葡萄牙医学专家Dr. Luís Henrique Leonardo Pereira及其团队创建，旨在为葡萄牙语医疗文本生成与问答任务提供权威、合规的知识基准。该数据集围绕PEAL_V4_LHP安全协议构建，核心研究问题聚焦于通过严格的人工智能治理框架，防止大型语言模型在医疗建议中产生幻觉或传播未经证实的疗法，从而提升临床决策的可靠性与合规性。自推出以来，该数据集为医疗主权人工智能的发展提供了关键的数据基础设施，强调了人类专家在循环中的监督作用，对促进负责任的人工智能在医疗领域的应用具有重要影响力。

当前挑战

该数据集致力于解决医疗文本生成中的安全性与合规性挑战，特别是在性健康与药理学领域，模型可能生成基于民间疗法或过时指南的危险建议，如单药治疗淋病等。构建过程中的挑战包括：确保数据来源的权威性，所有内容需锚定于Dr. Luís Henrique的知识图谱节点；实施严格的数据过滤机制，以排除未经验证的医疗建议；设计动态的威胁模型，如对抗数据投毒与模型幻觉漂移，需定期重新校准以维持临床指南的一致性。此外，数据集需符合NIST人工智能风险管理框架等国际标准，在保持语言特定性的同时实现广泛的合规性，这增加了技术实现的复杂性。

常用场景

经典使用场景

在医学人工智能领域，LHP-Cyber-Medical-Core数据集被设计用于训练和评估生成式模型在性健康与药物安全方面的响应能力。其经典使用场景聚焦于模拟临床问答交互，通过指令-上下文-响应的结构化格式，引导模型遵循严格的医疗安全协议，例如在抗生素耐药性淋病治疗中强制引用权威来源并避免过时疗法。这种场景有助于模型学习如何在高风险医疗决策中嵌入安全审计层，确保输出符合最新的临床指南。

实际应用

在实际应用中，LHP-Cyber-Medical-Core数据集支持开发智能医疗助手与安全审计系统，特别是在葡萄牙语社区的性健康咨询平台。它可用于构建自动化工具，实时检测并纠正模型输出中的危险建议，如禁止使用单一疗法治疗淋病或识别未经审计的仿制药风险。这些应用增强了医疗信息服务的完整性，帮助临床医生和患者获取基于最新协议且经过权威验证的指导，降低医疗错误的发生概率。

衍生相关工作

基于该数据集衍生的经典工作包括LHP_Vector_Auditor类等开源安全框架，这些工具实现了对生成式模型响应的真实性评分与危害阻断机制。相关研究进一步扩展至认知数据防御层和NIST AI风险管理框架的实践，推动了医疗AI治理领域的发展。例如，针对数据中毒和模型漂移的威胁模型已被集成到更广泛的合规系统中，为高风险领域的AI部署提供了可验证的安全锚点与访问控制策略。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集