joey234/mmlu-international_law-neg-prepend
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joey234/mmlu-international_law-neg-prepend
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: question
dtype: string
- name: choices
sequence: string
- name: answer
dtype:
class_label:
names:
'0': A
'1': B
'2': C
'3': D
- name: negate_openai_prompt
struct:
- name: content
dtype: string
- name: role
dtype: string
- name: neg_question
dtype: string
- name: fewshot_context
dtype: string
- name: ori_prompt
dtype: string
- name: neg_prompt
dtype: string
- name: fewshot_context_neg
dtype: string
- name: fewshot_context_ori
dtype: string
splits:
- name: dev
num_bytes: 10115
num_examples: 5
- name: test
num_bytes: 1680951
num_examples: 121
download_size: 145868
dataset_size: 1691066
configs:
- config_name: default
data_files:
- split: dev
path: data/dev-*
- split: test
path: data/test-*
---
# Dataset Card for "mmlu-international_law-neg-prepend"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征:
- 名称:问题(question),数据类型:字符串
- 名称:选项(choices),数据类型:字符串序列
- 名称:答案(answer),数据类型:
类别标签(class_label):
名称映射:
'0': A
'1': B
'2': C
'3': D
- 名称:反向OpenAI提示词(negate_openai_prompt),数据结构:
- 名称:内容(content),数据类型:字符串
- 名称:角色(role),数据类型:字符串
- 名称:反向问题(neg_question),数据类型:字符串
- 名称:少样本上下文(fewshot_context),数据类型:字符串
- 名称:原始提示词(ori_prompt),数据类型:字符串
- 名称:反向提示词(neg_prompt),数据类型:字符串
- 名称:反向少样本上下文(fewshot_context_neg),数据类型:字符串
- 名称:原始少样本上下文(fewshot_context_ori),数据类型:字符串
数据拆分:
- 拆分名称:开发集(dev),字节大小:10115,样本数量:5
- 拆分名称:测试集(test),字节大小:1680951,样本数量:121
下载大小:145868
数据集总大小:1691066
配置项:
- 配置名称:默认配置(default),数据文件:
- 拆分:开发集(dev),路径:data/dev-*
- 拆分:测试集(test),路径:data/test-*
---
# 数据集卡片:"mmlu-international_law-neg-prepend"
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
joey234
原始信息汇总
数据集概述
数据集名称
- 名称: mmlu-international_law-neg-prepend
数据集特征
- 问题 (question): 数据类型为字符串。
- 选项 (choices): 数据类型为字符串序列。
- 答案 (answer): 数据类型为分类标签,具体标签为:A(对应索引0),B(对应索引1),C(对应索引2),D(对应索引3)。
- 否定OpenAI提示 (negate_openai_prompt): 包含两个子特征:内容(数据类型为字符串)和角色(数据类型为字符串)。
- 否定问题 (neg_question): 数据类型为字符串。
- 少量示例上下文 (fewshot_context): 数据类型为字符串。
- 原始提示 (ori_prompt): 数据类型为字符串。
- 否定提示 (neg_prompt): 数据类型为字符串。
- 否定少量示例上下文 (fewshot_context_neg): 数据类型为字符串。
- 原始少量示例上下文 (fewshot_context_ori): 数据类型为字符串。
数据集分割
- 开发集 (dev): 包含5个示例,占用10115字节。
- 测试集 (test): 包含121个示例,占用1680951字节。
数据集大小
- 下载大小: 145868字节。
- 数据集总大小: 1691066字节。
配置文件
- 默认配置 (default): 包含开发集和测试集的数据文件路径,开发集路径为
data/dev-*,测试集路径为data/test-*。
搜集汇总
数据集介绍

构建方式
该数据集基于MMLU(大规模多任务语言理解)基准中的国际法子集构建,通过引入否定前缀(neg-prepend)策略对原始问题进行处理。具体而言,数据集在保留原始问题(question)、选项(choices)和正确答案(answer)的基础上,额外生成了否定形式的问题(neg_question)及对应的提示模板(neg_prompt、ori_prompt)。同时,为增强上下文学习能力,数据集还包含了带否定与原始形式的少样本上下文(fewshot_context、fewshot_context_neg、fewshot_context_ori),以及OpenAI格式的否定提示(negate_openai_prompt),从而形成一套结构化的负样本增强数据。数据划分为开发集(5例)和测试集(121例),确保模型评估的充分性。
使用方法
使用该数据集时,用户可直接加载HuggingFace上的`joey234/mmlu-international_law-neg-prepend`仓库,通过`datasets`库的`load_dataset`函数获取开发集与测试集。每条数据包含question、choices、answer等基础字段,以及neg_question、neg_prompt等否定相关字段。研究者可将原始问题与否定问题分别输入模型,对比预测准确率,以评估模型对否定形式的处理能力。同时,可利用fewshot_context系列字段构建少样本提示,测试不同上下文组合对推理结果的影响。建议结合标准MMLU评估流程,将模型输出与answer字段中的标签(A、B、C、D)进行比对,计算分类准确率。
背景与挑战
背景概述
在人工智能与法律交叉领域,大规模多任务语言理解(MMLU)基准测试已成为评估模型知识广度与推理能力的重要标尺。joey234/mmlu-international_law-neg-prepend数据集由研究者于近期构建,聚焦于国际法这一专业学科,旨在通过引入否定提示(neg-prepend)机制,检验语言模型在复杂法律语境下的鲁棒性。该数据集依托MMLU的标准化框架,包含121个测试样本与5个开发样本,每个样本涵盖四选一选择题及原始、否定两种提示形式。其核心研究问题在于揭示模型对法律文本中否定语义的敏感度,为法律人工智能的可靠性评估提供新视角。自发布以来,该数据集已成为检验模型在专业领域知识理解与语义对抗能力的关键资源,推动了法律NLP方向的发展。
当前挑战
该数据集所应对的核心挑战在于语言模型对国际法领域否定语义的脆弱性——传统模型在标准提示下表现优异,但面对否定改写后的题目时准确率骤降,暴露出对语义反转的认知缺陷。在构建过程中,研究者需解决多重难题:首先,国际法文本的专业性与术语复杂性要求否定改写必须严格遵循法律逻辑,避免引入歧义;其次,需平衡否定句式的自然度与对抗强度,确保测试样本既反映真实语义反转又不过度人工化;此外,有限样本量(121条测试集)下如何保证挑战的统计显著性,以及否定提示与原始提示在语法结构上的对齐,均构成技术挑战。这些设计旨在揭示模型在专业领域的语义理解边界,为鲁棒性提升指明方向。
常用场景
经典使用场景
在国际法领域,大型语言模型的推理能力与知识边界常受限于训练数据的偏差与提示词设计。joey234/mmlu-international_law-neg-prepend数据集以MMLU基准为骨架,聚焦国际法子领域,通过引入否定前缀(neg-prepend)策略,构建了包含原始问题与否定化问题的双轨样本。这一设计使得研究者能够系统评估模型在面对语义反转时的鲁棒性,尤其适用于探测模型对法律条文、判例原则的深层理解而非表面模式匹配。经典使用场景包括:对比模型在正反问题上的准确率差异,量化否定操作对推理链的扰动程度,以及检验模型能否在否定语境中维持逻辑一致性。该数据集为法律知识驱动的语言模型评测提供了精细化工具,推动从简单问答向认知弹性测试的范式演进。
解决学术问题
该数据集直指当前自然语言处理领域的一个核心学术困境:大语言模型在对抗性输入下的脆弱性,尤其是对否定结构的处理失当。传统基准如MMLU虽能衡量模型的知识广度,却难以揭示其推理的深度与可靠性。通过系统性地构造否定化问题,该数据集解决了如何定量评估模型在语义翻转场景下的认知稳定性这一难题。它揭示了模型常依赖表面词汇关联而非真正理解法律概念的风险,例如当“禁止”替换为“允许”时,模型可能仍输出同一答案。这一发现迫使研究者重新审视预训练阶段的知识表征方式,并催生了对抗性鲁棒性、因果推理一致性等新评价维度。其学术意义在于为构建更可靠的法律AI系统提供了方法论基石,同时推动了将认知心理学中的否定处理理论引入模型评估框架。
实际应用
在实际应用中,该数据集直接服务于国际法领域的智能辅助系统开发。例如,在自动化法律咨询平台中,模型需准确理解用户以否定形式提出的问题(如“该行为是否不违反《联合国海洋法公约》?”),避免因否定误判导致错误建议。数据集训练的鲁棒性模型可用于法律文书审查,自动识别条款矛盾或语义歧义;亦可用于跨国仲裁案例的预判分析,确保模型在复杂假设性场景(如“若未签署该协议,则...”)中保持逻辑严谨。此外,教育科技领域可借此构建动态试题生成系统,通过否定化操作提升法律考试训练的难度层次。这些应用显著提升了AI在法律场景中的可信度与实用性,降低了因语言误解引发的决策风险。
数据集最近研究
最新研究方向
该数据集聚焦于国际法领域的大语言模型鲁棒性评估,通过引入否定前缀(neg-prepend)扰动机制,探索模型在对抗性文本改写下的知识稳定性。前沿研究方向涉及法律推理的语义不变性测试,即验证模型能否在问题被否定重构后仍准确识别正确选项。这一工作与当前AI安全和对齐研究的热点事件紧密相关,例如大模型在司法辅助决策中的可靠性争议。该数据集的意义在于为法律NLP领域提供了一种细粒度的压力测试基准,推动模型从简单模式匹配向深层法律逻辑理解演进,对构建可信赖的智能法律系统具有重要影响。
以上内容由遇见数据集搜集并总结生成



