joey234/mmlu-clinical_knowledge-neg-prepend

Name: joey234/mmlu-clinical_knowledge-neg-prepend
Creator: joey234
Published: 2023-08-23 04:29:21
License: 暂无描述

Hugging Face2023-08-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/joey234/mmlu-clinical_knowledge-neg-prepend

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: question dtype: string - name: choices sequence: string - name: answer dtype: class_label: names: '0': A '1': B '2': C '3': D - name: negate_openai_prompt struct: - name: content dtype: string - name: role dtype: string - name: neg_question dtype: string - name: fewshot_context dtype: string - name: ori_prompt dtype: string - name: neg_prompt dtype: string - name: fewshot_context_neg dtype: string - name: fewshot_context_ori dtype: string splits: - name: dev num_bytes: 6643 num_examples: 5 - name: test num_bytes: 1915838 num_examples: 265 download_size: 205749 dataset_size: 1922481 configs: - config_name: default data_files: - split: dev path: data/dev-* - split: test path: data/test-* --- # Dataset Card for "mmlu-clinical_knowledge-neg-prepend" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

### 数据集元信息特征字段： - 字段名：问题（question），数据类型：字符串 - 字段名：选项（choices），序列类型：字符串序列 - 字段名：答案（answer），数据类型为类标签（class_label），标签映射关系为：'0'对应A、'1'对应B、'2'对应C、'3'对应D - 字段名：反向OpenAI提示词（negate_openai_prompt），为结构体类型，包含两个子字段： - 内容（content）：字符串类型 - 角色（role）：字符串类型 - 字段名：反向问题（neg_question），数据类型：字符串 - 字段名：少样本上下文（fewshot_context），数据类型：字符串 - 字段名：原始提示词（ori_prompt），数据类型：字符串 - 字段名：反向提示词（neg_prompt），数据类型：字符串 - 字段名：反向少样本上下文（fewshot_context_neg），数据类型：字符串 - 字段名：原始少样本上下文（fewshot_context_ori），数据类型：字符串数据集划分： - 划分集：开发集（dev），字节大小：6643，样本数量：5 - 划分集：测试集（test），字节大小：1915838，样本数量：265 下载总大小：205749字节，数据集总存储大小：1922481字节配置项： - 配置名称：默认配置（default），对应数据文件路径： - 开发集划分：data/dev-* - 测试集划分：data/test-* --- # "mmlu-clinical_knowledge-neg-prepend"数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

joey234

原始信息汇总

数据集概述

数据集名称

mmlu-clinical_knowledge-neg-prepend

数据特征

question: 字符串类型
choices: 字符串序列
answer: 分类标签，对应关系为：0: A, 1: B, 2: C, 3: D
negate_openai_prompt: 结构化数据，包含：
- content: 字符串类型
- role: 字符串类型
neg_question: 字符串类型
fewshot_context: 字符串类型
ori_prompt: 字符串类型
neg_prompt: 字符串类型
fewshot_context_neg: 字符串类型
fewshot_context_ori: 字符串类型

数据分割

dev: 5个样本，占用6643字节
test: 265个样本，占用1915838字节

数据集大小

下载大小: 205749字节
数据集总大小: 1922481字节

配置文件

config_name: default
data_files:
- dev: 路径为 data/dev-*
- test: 路径为 data/test-*

搜集汇总

数据集介绍

构建方式

该数据集基于MMLU基准中的临床知识子集构建，通过向原始问题前添加否定性提示（negate_openai_prompt）生成负样本，形成问题-选择的对抗性变体。原始样本包含问题（question）、选项（choices）及标准答案（answer），而负样本则额外存储了否定提示（neg_prompt）、否定问题（neg_question）及对应的少样本上下文（fewshot_context_neg）。数据集划分为开发集（5例）和测试集（265例），确保评估的稳健性。

特点

数据集的核心特点在于其对抗性设计，通过否定性前缀扰动问题语义，测试模型在临床知识推理中的鲁棒性。每条样本同时保留原始提示（ori_prompt）和否定提示（neg_prompt），支持对比分析。少样本上下文（fewshot_context）及其否定版本（fewshot_context_neg）为评估模型对上下文干扰的敏感性提供了独特视角，有助于揭示语言模型在医学领域中的脆弱性。

使用方法

使用时可加载默认配置，通过HuggingFace Datasets库的load_dataset函数直接获取开发集和测试集。每条样本的'question'字段用于模型输入，'choices'提供选项，'answer'为标签。研究者可分别利用'ori_prompt'和'neg_prompt'评估模型对原始与否定提示的预测差异，或结合'fewshot_context'与'fewshot_context_neg'进行少样本学习下的鲁棒性分析。

背景与挑战

背景概述

大规模多任务语言理解（MMLU）基准测试自2020年由OpenAI等机构提出以来，已成为评估语言模型在广泛知识领域内推理能力的重要标准。其中，临床知识子集聚焦于医学领域的专业问题，涵盖诊断、治疗、病理学等核心议题，旨在检验模型对复杂临床知识的掌握程度。joey234/mmlu-clinical_knowledge-neg-prepend数据集于近期构建，由研究者针对MMLU临床知识子集进行负向提示（neg-prepend）改造而成，通过引入否定性前缀或反向问题表述，深入探究语言模型在面对语义反转或逻辑对抗时的鲁棒性。该数据集包含265个测试样本与5个开发样本，每个问题附带四个选项及对应的否定提示变体，为评估模型在临床推理中的脆弱性提供了独特视角，对推动医疗AI的安全性与可靠性研究具有显著影响力。

当前挑战

该数据集所解决的领域问题在于揭示语言模型在临床知识问答中面对否定性表述时的性能退化。传统MMLU评估往往忽略语义反转带来的理解偏差，而临床场景中误读否定性指令可能导致严重医疗后果，因此模型对负向提示的鲁棒性成为关键挑战。构建过程中，研究者需精心设计否定性前缀以保持临床语义的合理性，避免引入无关噪声或歧义，同时确保原始问题与否定变体在难度上具有可比性。此外，数据规模有限（仅265个测试样本），需通过少样本上下文（fewshot_context）策略平衡评估的统计显著性，这对实验设计的严谨性提出了较高要求。

常用场景

经典使用场景

在临床知识问答领域，joey234/mmlu-clinical_knowledge-neg-prepend数据集作为MMLU（Massive Multitask Language Understanding）的子集，专为评估大语言模型在临床医学知识上的推理鲁棒性而设计。其经典使用场景是通过引入否定前缀（neg-prepend）的对抗性样本，测试模型在面对问题表述被否定化处理时的理解能力。研究者通常利用该数据集中的`neg_question`和`neg_prompt`字段，比较模型在原始问题与否定问题上的回答一致性，从而量化模型对语义反转的敏感度。这一场景尤其适用于检验模型是否真正掌握了临床知识，而非仅仅依赖表面模式匹配。

实际应用

在实际应用中，该数据集被用于开发临床决策支持系统的鲁棒性验证工具。例如，医院部署的智能分诊系统需确保在患者使用否定表述（如“我没有发烧”）时，模型仍能准确提取关键症状。开发人员利用该数据集的`negate_openai_prompt`字段，模拟真实诊疗中多样的否定表达，测试模型在电子健康记录解析或药物相互作用提醒中的容错能力。此外，医学教育平台可借助该数据集评估AI辅导系统能否识别学生提问中的否定陷阱，从而提供更精准的反馈。

衍生相关工作

该数据集衍生了一系列关于语言模型逻辑推理能力的经典研究。例如，基于其否定前缀设计思路，研究者提出了NEG-BENCH基准，系统评估模型在数学、法律等多领域中的否定理解能力。另一项工作利用该数据集的`fewshot_context_neg`字段，探索上下文学习中否定样本的注入对模型泛化性能的影响，揭示了少样本提示中否定示例的负面迁移效应。此外，该数据集还启发了对抗性提示生成算法，通过自动构造医学否定问题来训练更鲁棒的医疗语言模型，相关成果已被ACL和EMNLP会议收录。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集