MInAlA/medical-tampering-eval

Name: MInAlA/medical-tampering-eval
Creator: MInAlA
Published: 2026-04-10 15:22:45
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/MInAlA/medical-tampering-eval

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-nc-4.0 task_categories: - text-classification language: - en tags: - medical - ai-safety - human-ai-complementarity - tampering-detection size_categories: - n<1K --- # Medical Tampering Eval Dataset Dataset for evaluating AI and human ability to detect subtle errors in medical conversations. Built for human-AI complementarity research. ## Dataset Summary | Type | Count | Description | |---|---|---| | Clean | 430 | Correct, complete 15-20 turn medical conversations | | Omission | 86 | One critical safety sentence removed from an assistant turn | | Context-Dependent Harm | 19 | Patient context added that makes existing (correct) advice dangerous | | **Total** | **535** | | ## Ground Truth Quality Every tampered example is **triple-verified**: 1. **Architectural** — tamper applied via programmatic diff (deepcopy + single-turn replacement), guaranteeing all other turns are byte-identical 2. **Structural verification** — automated checks confirm exactly one turn changed, metadata matches actual diff 3. **LLM verification** — independent model confirms the change is clinically significant and ground truth is accurate ## Source All medical facts are extracted from **StatPearls (NCBI Bookshelf)** articles, with traceable source quotes and URLs. 86 articles across 11 medical domains. ## Tamper Types ### Context-Dependent Harm - One early **user** turn is modified to add a patient-specific medical detail (e.g., "I have stage 3 CKD") - All **assistant** turns remain byte-identical to the clean version - The harm is purely contextual: advice correct for a general patient becomes dangerous for THIS patient - Examples: NSAIDs + CKD, methotrexate + pregnancy, propranolol + severe asthma ### Omission - One **assistant** turn has a critical safety sentence removed - All **user** turns remain byte-identical to the clean version - Everything remaining is factually correct — the harm is in what is missing ## Files - — Combined dataset (clean + verified tampered) - — All clean conversations - — Verified omission examples - — Verified context-dependent harm examples - — Extracted medical facts (general) - — Extracted medical facts (treatment-focused) - — Dataset overview table ## Citation Part of human-AI complementarity research at MInAlA.

提供机构：

MInAlA

搜集汇总

数据集介绍

构建方式

该数据集名为Medical Tampering Eval，专为评估人工智能与人类在医疗对话中识别微妙错误的能力而构建，旨在推动人机互补性研究。其数据源自StatPearls（NCBI Bookshelf）上的86篇医学文章，覆盖11个医学领域，所有事实均附有可追溯的源引用和URL。数据集包含535条对话，其中430条为完整正确的医疗对话（即清洁样本），其余105条经两种方式篡改：一种通过编程方法在助手的单轮回复中移除关键安全句子（遗漏篡改，共86条），另一种在用户早期轮次中添加患者特定信息，使原本正确的建议在特定上下文中变得危险（上下文依赖危害，共19条），且助手回复与清洁版本字节一致。每一条篡改样本均经过三重验证，包括架构层面通过深拷贝和单轮替换保证仅变更一个轮次，结构层面由自动化检查确认变化位置和元数据匹配，以及由独立语言模型确认篡改的临床重要性。

使用方法

该数据集可用于文本分类任务，特别适用于检测医疗对话中的细微错误和风险场景。使用时，可将清洁样本和篡改样本混合或分开评估；清洁样本作为基线对照，两类篡改样本则分别用于测试检测者对遗漏误导和上下文错误的敏感性。数据以HuggingFace格式提供，包含完整对话、元数据和篡改标注，用户可直接加载并进行模型训练或评估。建议采用准确率、召回率和误报率等指标衡量检测性能，尤其关注篡改样本的检出率，以分析人机互补情景下的协作效果。该数据集在医疗安全、人工智能可靠性和人机交互等多个交叉领域具有应用价值。

背景与挑战

背景概述

在人工智能与人类协作的医疗场景中，确保对话系统的安全性与可靠性至关重要。Medical Tampering Eval数据集由MInAlA研究机构于近年创建，专注于评估AI及人类检测医疗对话中细微错误的能力，其核心研究问题在于探究人机互补性如何提升错误识别的鲁棒性。该数据集包含535条经过三重验证的医疗对话样本，覆盖清洁对话与两种篡改类型（遗漏与上下文依赖危害），所有医学事实均源自StatPearls（NCBI Bookshelf）的权威文章。作为人机互补性研究的基石，该数据集为医疗AI安全评估提供了精细化的基准，推动了人机协同下错误检测机制的发展。

当前挑战

该数据集所解决的领域挑战在于：医疗对话中的细微错误（如关键信息遗漏或患者特定上下文的危害）往往难以被传统AI或人类单独识别，这类错误可能导致严重的临床后果。而在构建过程中，面临两大挑战：一是确保篡改的真实性与临床意义，通过程序化差异、结构验证和独立模型三重验证机制，保证每次篡改均精准且具有临床相关性；二是实现上下文的精确操纵，例如在上下文依赖危害中，仅修改用户回合添加患者细节，而保持助手回合不变，使得原本正确的建议因特定患者状况（如肾病患者使用非甾体抗炎药）而变得危险，这对数据集的构造精度和领域知识深度提出了极高要求。

常用场景

经典使用场景

在人工智能安全与医疗对话系统的交叉领域中，medical-tampering-eval数据集被广泛应用于评估模型和人类对医疗对话中细微错误的感知能力。该数据集精心设计了两种篡改类型：删除型篡改（Omission）与上下文依赖型危害（Context-Dependent Harm），分别模拟了助手的遗漏关键安全语句以及因患者上下文信息改变而导致的原本正确建议变得危险的情形。研究人员通过该数据集构建人机互补性实验，考察人类与AI在联合检测医疗对话篡改时的协同表现与效能差异。

解决学术问题

该数据集核心解决了医疗对话系统中隐蔽性错误的系统化评估难题。传统安全评测往往聚焦于模型生成的显式错误，而忽略了在对话过程中因关键信息缺失或上下文变化导致的潜在危害。medical-tampering-eval通过三重验证机制确保篡改样本的真实性与临床显著性，为量化人机协作在对抗细微错误时的互补增益提供了可靠基准。其意义在于推动AI安全研究从单点错误检测迈向上下文敏感的动态安全性评估，深刻影响了医疗AI部署前的风险预警与质量保障框架。

实际应用

在实际应用层面，该数据集可直接用于医疗对话助手的上线前安全审计，帮助开发团队识别模型在复杂对话场景中可能遗漏的关键安全约束。例如在远程问诊系统中，当患者提供特殊病史（如慢性肾病、妊娠状态）时，系统需能感知上下文变化并调整用药建议，该数据集提供的上下文依赖型篡改案例恰好模拟了此类高风险场景。此外，它还可应用于AI辅助临床决策支持系统的持续监控，确保人机协同诊疗流程中任何环节的错误都能被及时捕获与纠正。

数据集最近研究