joey234/mmlu-professional_law-neg-prepend
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joey234/mmlu-professional_law-neg-prepend
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: question
dtype: string
- name: choices
sequence: string
- name: answer
dtype:
class_label:
names:
'0': A
'1': B
'2': C
'3': D
- name: negate_openai_prompt
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: neg_question
dtype: string
- name: fewshot_context
dtype: string
- name: ori_prompt
dtype: string
- name: neg_prompt
dtype: string
- name: fewshot_context_neg
dtype: string
- name: fewshot_context_ori
dtype: string
splits:
- name: dev
num_bytes: 24427
num_examples: 5
- name: test
num_bytes: 42333466
num_examples: 1534
download_size: 3507499
dataset_size: 42357893
configs:
- config_name: default
data_files:
- split: dev
path: data/dev-*
- split: test
path: data/test-*
---
# Dataset Card for "mmlu-professional_law-neg-prepend"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 字段名:问题(question),数据类型:字符串(string)
- 字段名:选项集(choices),数据类型:字符串序列(sequence)
- 字段名:答案(answer),数据类型:分类标签(class_label),其类别名称映射为:
'0': A
'1': B
'2': C
'3': D
- 字段名:反向OpenAI提示词(negate_openai_prompt),结构体类型,包含子字段:
- 内容(content):字符串(string)
- 角色(role):字符串(string)
- 字段名:反向问题(neg_question),数据类型:字符串(string)
- 字段名:少样本上下文(fewshot_context),数据类型:字符串(string)
- 字段名:原始提示词(ori_prompt),数据类型:字符串(string)
- 字段名:反向提示词(neg_prompt),数据类型:字符串(string)
- 字段名:反向少样本上下文(fewshot_context_neg),数据类型:字符串(string)
- 字段名:原始少样本上下文(fewshot_context_ori),数据类型:字符串(string)
数据集划分:
- 划分名称:dev(开发集),字节占用:24427,样本数量:5
- 划分名称:test(测试集),字节占用:42333466,样本数量:1534
下载大小:3507499
数据集总大小:42357893
数据集配置:
- 配置名称:default(默认配置),数据文件路径:
- 划分dev:data/dev-*
- 划分test:data/test-*
---
# 数据集卡片:"mmlu-professional_law-neg-prepend"
【需补充更多信息】,详见:https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards
提供机构:
joey234
原始信息汇总
数据集概述
数据集名称
mmlu-professional_law-neg-prepend
数据集特征
- question: 数据类型为字符串。
- choices: 数据类型为字符串序列。
- answer: 数据类型为分类标签,标签名称为A、B、C、D。
- negate_openai_prompt: 结构化数据,包含两个子特征:
- content: 数据类型为字符串。
- role: 数据类型为字符串。
- neg_question: 数据类型为字符串。
- fewshot_context: 数据类型为字符串。
- ori_prompt: 数据类型为字符串。
- neg_prompt: 数据类型为字符串。
- fewshot_context_neg: 数据类型为字符串。
- fewshot_context_ori: 数据类型为字符串。
数据集分割
- dev: 大小为24427字节,包含5个样本。
- test: 大小为42333466字节,包含1534个样本。
数据集大小
- 下载大小: 3507499字节。
- 数据集总大小: 42357893字节。
配置文件
- config_name: default
- data_files:
- dev: 路径为data/dev-*。
- test: 路径为data/test-*。
搜集汇总
数据集介绍

构建方式
该数据集基于MMLU基准测试中的专业法律子集构建,通过将原始问题与其否定形式配对,形成一种对抗性样本。具体而言,每个原始问题被转化为一个否定版本,其中问题的语义被反转,同时保留相同的选项和正确答案。数据集的构建利用了OpenAI的提示模板,生成了negate_openai_prompt字段,并进一步衍生出neg_question、neg_prompt等字段,以支持对模型鲁棒性的评估。数据分为开发集(5个样本)和测试集(1534个样本),确保在有限样本下进行快速验证,并在大规模测试中全面衡量模型性能。
特点
该数据集的核心特点在于其对抗性设计,通过引入否定前缀来挑战语言模型对语义反转的敏感性。每个样本包含原始问题与否定问题,以及对应的原始提示和否定提示,使得研究者能够直接比较模型在不同语义方向上的表现。此外,数据集保留了MMLU的多项选择结构(A、B、C、D选项),并提供了fewshot_context字段,便于进行少样本学习实验。这种设计不仅评估模型的准确性,更揭示了其在面对语义扰动时的推理稳定性,为理解语言模型的局限性提供了独特视角。
使用方法
使用该数据集时,研究者可直接加载HuggingFace上的joey234/mmlu-professional_law-neg-prepend仓库,通过datasets库获取开发集和测试集。建议将原始问题与否定问题分别输入模型,对比其预测的正确率,以量化模型对否定扰动的鲁棒性。可结合fewshot_context字段构建少样本提示,或直接使用neg_prompt和ori_prompt字段进行零样本评估。最终结果可通过计算两类问题的准确率差异,揭示模型在专业法律知识上的语义理解偏差。
背景与挑战
背景概述
大规模多任务语言理解(MMLU)基准测试自2020年由OpenAI等机构提出以来,已成为评估大语言模型知识广度和推理能力的重要标尺。其中,专业法律(Professional Law)子集聚焦于法律领域的复杂问答任务,涵盖合同法、侵权法、刑法等核心学科,旨在检验模型对专业法律条文与判例逻辑的理解深度。该数据集由joey234于2023年创建,通过引入否定前缀(neg-prepend)机制,在原始问题前添加否定性上下文,专门针对模型在对抗性扰动下的鲁棒性进行探究。这一设计不仅揭示了语言模型在面临语义反转时表现出的脆弱性,还为评估模型是否真正掌握法律推理而非表面模式匹配提供了独特视角,对推动可信AI在法律等高风险领域的应用具有重要价值。
当前挑战
该数据集所解决的领域挑战在于:大语言模型在法律问答中常因训练数据的统计偏差而表现出虚假的相关性,而非基于逻辑推演,导致其在否定性语境下准确率骤降。具体而言,模型可能依赖关键词匹配而非法律关系理解来作答,当问题被添加否定前缀后,其表现往往退化为随机水平,暴露出泛化能力的根本缺陷。在构建过程中,挑战则体现在否定性样本的语义一致性维护上——需确保否定前缀的添加不引入语法错误或语义歧义,同时保留原始问题的法律严谨性。此外,如何设计否定策略以覆盖多样化的法律推理类型(如条件否定、例外条款等),并平衡正负样本的分布以避免评价偏差,也是数据构建中的关键难点。
常用场景
经典使用场景
该数据集源自MMLU(大规模多任务语言理解)基准测试中的专业法律子集,经过精心设计,引入了否定提示(neg-prepend)机制,旨在评估和挑战大语言模型在专业法律知识问答中的鲁棒性。经典使用场景集中于对模型在复杂法律条文理解、逻辑推理与对抗性输入下的表现进行系统评测,尤其关注当问题被施加否定性前缀或上下文扰动时,模型是否仍能准确识别正确选项。这一设计使得该数据集成为检验语言模型在专业领域知识检索与语义稳定性方面的标杆工具。
实际应用
在实际应用中,该数据集可用于法律人工智能系统的质量保障,例如智能法律咨询、合同审查辅助或法律文书生成工具的抗干扰能力测试。通过模拟用户可能提出的带有否定或歧义的法律问题,开发者能够精准定位模型在真实场景中的推理漏洞,进而优化系统对复杂法律表述的响应准确性。此外,该数据集还可作为法律教育领域自动评估系统的基准,帮助检验AI辅助教学工具对法律逻辑的掌握程度。
衍生相关工作
该数据集衍生了一系列围绕对抗性提示与领域鲁棒性的经典工作,包括对否定前缀影响下模型注意力机制的分析研究,以及基于该数据集提出的对比学习与提示增强方法。相关研究还探索了将否定策略迁移到其他专业领域(如医学、金融)的可行性,并推动了MMLU系列中更多子集进行类似的鲁棒性扩展。这些工作共同深化了学界对语言模型在专业语境中认知边界的理解,并为构建更可靠的AI系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



