joey234/mmlu-clinical_knowledge-neg-prepend-verbal
收藏Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joey234/mmlu-clinical_knowledge-neg-prepend-verbal
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: dev
path: data/dev-*
- split: test
path: data/test-*
dataset_info:
features:
- name: question
dtype: string
- name: choices
sequence: string
- name: answer
dtype:
class_label:
names:
'0': A
'1': B
'2': C
'3': D
- name: negate_openai_prompt
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: neg_question
dtype: string
- name: fewshot_context
dtype: string
- name: ori_prompt
dtype: string
- name: neg_prompt
dtype: string
- name: fewshot_context_neg
dtype: string
- name: fewshot_context_ori
dtype: string
splits:
- name: dev
num_bytes: 6767
num_examples: 5
- name: test
num_bytes: 2000689
num_examples: 265
download_size: 212042
dataset_size: 2007456
---
# Dataset Card for "mmlu-clinical_knowledge-neg-prepend-verbal"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
配置项:
- 配置名称(config_name):default
数据文件(data_files):
- 划分(split):dev,路径:data/dev-*
- 划分(split):test,路径:data/test-*
数据集信息(dataset_info):
特征(features):
- 字段名:question(问题),数据类型:字符串(string)
- 字段名:choices(选项),序列类型(sequence):字符串(string)
- 字段名:answer(答案),数据类型:类别标签(class_label),其标签映射为:
'0' 对应 A,'1' 对应 B,'2' 对应 C,'3' 对应 D
- 字段名:negate_openai_prompt(否定式OpenAI提示词),结构体类型(struct):
- 字段名:content(内容),数据类型:字符串(string)
- 字段名:role(角色),数据类型:字符串(string)
- 字段名:neg_question(否定式问题),数据类型:字符串(string)
- 字段名:fewshot_context(少样本(Few-shot)上下文),数据类型:字符串(string)
- 字段名:ori_prompt(原始提示词),数据类型:字符串(string)
- 字段名:neg_prompt(否定式提示词),数据类型:字符串(string)
- 字段名:fewshot_context_neg(带否定的少样本上下文),数据类型:字符串(string)
- 字段名:fewshot_context_ori(带原始内容的少样本上下文),数据类型:字符串(string)
划分(splits):
- 划分名称:dev,字节数:6767,样本数量:5
- 划分名称:test,字节数:2000689,样本数量:265
下载大小:212042,数据集总大小:2007456
---
# 「mmlu-clinical_knowledge-neg-prepend-verbal」数据集卡片
[更多信息待补充](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
joey234
原始信息汇总
数据集概述
数据集名称
- mmlu-clinical_knowledge-neg-prepend-verbal
数据集配置
- 默认配置 (
default)- 数据文件路径:
- 开发集 (
dev):data/dev-* - 测试集 (
test):data/test-*
- 开发集 (
- 数据文件路径:
数据集信息
特征
question: 问题,数据类型为字符串 (string)choices: 选项,数据类型为字符串序列 (sequence: string)answer: 答案,数据类型为类别标签 (class_label),包含以下类别:0: A1: B2: C3: D
negate_openai_prompt: 结构化数据,包含以下字段:content: 内容,数据类型为字符串 (string)role: 角色,数据类型为字符串 (string)
neg_question: 否定问题,数据类型为字符串 (string)fewshot_context: 少量样本上下文,数据类型为字符串 (string)ori_prompt: 原始提示,数据类型为字符串 (string)neg_prompt: 否定提示,数据类型为字符串 (string)fewshot_context_neg: 否定少量样本上下文,数据类型为字符串 (string)fewshot_context_ori: 原始少量样本上下文,数据类型为字符串 (string)
数据集分割
- 开发集 (
dev)- 字节数: 6767
- 样本数: 5
- 测试集 (
test)- 字节数: 2000689
- 样本数: 265
数据集大小
- 下载大小: 212042 字节
- 数据集大小: 2007456 字节
搜集汇总
数据集介绍

构建方式
该数据集基于MMLU(大规模多任务语言理解基准)中的临床知识子集构建而成。通过系统性地对原始问题添加否定前缀,并生成对应的否定提示(neg_prompt)与原始提示(ori_prompt),同时引入少样本学习上下文(fewshot_context)及其否定版本(fewshot_context_neg),形成了一套结构化的对抗性测试样本。数据划分为开发集(5例)和测试集(265例),确保模型在临床知识推理任务中面临否定表达的挑战。
特点
数据集的核心特点在于其独特的否定前缀设计,通过negate_openai_prompt字段记录否定化后的对话结构,结合neg_question字段呈现改写后的否定问题,从而评估语言模型对语义反转的鲁棒性。每个样本保留原始选择题格式(四选一答案选项A-D),并额外提供少样本上下文的正反两种变体,为研究否定表达对临床知识推理的影响提供了精细化的控制变量。
使用方法
适用于评估和微调大语言模型在临床知识领域的否定推理能力。使用时,可将neg_prompt或fewshot_context_neg作为输入,要求模型基于给定的否定问题(neg_question)从四个选项中选出正确答案。建议与原始prompt版本进行对比实验,以量化模型处理否定语义时的性能衰减程度。数据以parquet格式存储,可通过HuggingFace Datasets库加载并指定dev或test分割。
背景与挑战
背景概述
在自然语言处理与医学知识的交叉领域中,临床知识推理一直是评估大语言模型专业能力的重要基准。joey234/mmlu-clinical_knowledge-neg-prepend-verbal数据集源自广受认可的MMLU(Massive Multitask Language Understanding)基准测试,侧重于临床知识子集。该数据集由研究者于近年构建,旨在探索模型在面对否定性提示(neg-prepend-verbal)时的理解与推理能力。其核心研究问题聚焦于语言模型在临床场景下对否定语义的敏感性,以及这种敏感性如何影响医学问答的准确性。通过对原始MMLU临床知识任务进行否定化改写,该数据集为评估模型的鲁棒性和语义理解深度提供了独特视角,对推动可信医疗AI系统的发展具有重要影响力。
当前挑战
该数据集所解决的领域挑战在于,临床知识问答中否定表达(如‘不适用’、‘无’等)常导致模型误解,从而引发严重医疗风险。传统基准测试未能充分覆盖这类语义陷阱,而该数据集通过构造否定提示,揭示了模型在逻辑否定下的脆弱性。构建过程中,研究者面临两大挑战:一是如何在不引入歧义的前提下,将原始临床问题自然转换为否定形式,确保语义一致性;二是需平衡否定样本与原始样本的分布,避免模型因数据偏差产生虚假关联。此外,仅有5个样本的开发集限制了调优空间,而测试集265个样本虽具代表性,但医学知识的专业性和否定结构的多样性仍对数据标注的准确性提出了极高要求。
常用场景
经典使用场景
在临床知识推理的学术研究中,joey234/mmlu-clinical_knowledge-neg-prepend-verbal数据集被广泛用于评估和提升大语言模型在医学领域面对否定性表述时的鲁棒性。该数据集通过精心设计的否定前缀(neg-prepend)与口头否定(verbal negation)结构,模拟了临床场景中常见的负面陈述、禁忌症或阴性结果等复杂语言现象。经典使用场景包括:构建对抗性测试基准,检验模型在否定性临床问题上的理解能力;以及作为微调数据,增强模型对医学文本中否定语义的敏感度,从而避免因语言歧义导致的错误诊断或建议。
实际应用
在实际应用中,该数据集直接服务于医疗人工智能系统的安全性和准确性提升。例如,在临床决策支持系统中,模型需准确理解“患者无发热”或“药物不适用于肝功能不全者”等否定性表述,以避免给出矛盾或危险的建议。基于此数据集训练的模型,能够更稳健地处理电子健康记录中的负面描述,优化自动病历摘要和诊断辅助工具。此外,在药物信息检索和患者教育场景中,模型对禁忌症和副作用相关否定的精准把握,减少了医疗沟通中的误解,提升了人机交互的可靠性。这些应用最终有助于降低临床错误率,增强医生对AI辅助工具的信任。
衍生相关工作
该数据集衍生了一系列具有影响力的研究工作。例如,研究者基于其否定前缀结构,开发了NegBERT和ClinicalNegationT5等专用模型,通过引入否定感知的注意力机制或预训练目标,显著提升了否定性临床文本的解析精度。后续工作如“Adversarial Negation in Medical QA”进一步扩展了数据集的对抗性变体,用于测试模型在极端否定条件下的稳健性。此外,该数据集也被整合进更广泛的医学语言理解基准(如MedNLI和ClinicalBERT的评估流程),成为评估否定鲁棒性的标准组件。这些衍生工作不仅深化了对语言模型否定处理能力的理解,还为构建更安全的医疗AI系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



