joey234/mmlu-world_religions-neg-prepend-fix

Name: joey234/mmlu-world_religions-neg-prepend-fix
Creator: joey234
Published: 2023-08-21 07:42:40
License: 暂无描述

Hugging Face2023-08-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/joey234/mmlu-world_religions-neg-prepend-fix

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: dev path: data/dev-* - split: test path: data/test-* dataset_info: features: - name: question dtype: string - name: choices sequence: string - name: answer dtype: class_label: names: '0': A '1': B '2': C '3': D - name: negate_openai_prompt struct: - name: content dtype: string - name: role dtype: string - name: neg_question dtype: string - name: fewshot_context dtype: string - name: ori_prompt dtype: string splits: - name: dev num_bytes: 4146 num_examples: 5 - name: test num_bytes: 260517 num_examples: 171 download_size: 10872 dataset_size: 264663 --- # Dataset Card for "mmlu-world_religions-neg-prepend-fix" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 配置项： - 配置名称：default 数据文件： - 拆分集：dev 路径：data/dev-* - 拆分集：test 路径：data/test-* 数据集信息：特征字段： - 字段名：question（问题），数据类型：string（字符串） - 字段名：choices（选项），数据类型：sequence of string（字符串序列） - 字段名：answer（答案），数据类型：class_label（类别标签），类别映射： '0': A '1': B '2': C '3': D - 字段名：negate_openai_prompt（反向OpenAI提示词），结构体类型，包含： - 字段名：content（内容），数据类型：string（字符串） - 字段名：role（角色），数据类型：string（字符串） - 字段名：neg_question（反向问题），数据类型：string（字符串） - 字段名：fewshot_context（少样本上下文），数据类型：string（字符串） - 字段名：ori_prompt（原始提示词），数据类型：string（字符串）拆分集： - 名称：dev 字节数：4146 示例数：5 - 名称：test 字节数：260517 示例数：171 下载大小：10872 数据集总大小：264663 --- # 数据集卡片（Dataset Card）：`mmlu-world_religions-neg-prepend-fix` [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

joey234

原始信息汇总

数据集概述

数据集名称

mmlu-world_religions-neg-prepend-fix

数据集配置

默认配置 (default)

数据文件

开发集 (dev)
- 路径: data/dev-*
测试集 (test)
- 路径: data/test-*

数据集信息

特征

question: 问题，数据类型为字符串 (string)
choices: 选项，数据类型为字符串序列 (sequence: string)
answer: 答案，数据类型为类别标签 (class_label)，包含以下类别:
- 0: A
- 1: B
- 2: C
- 3: D
negate_openai_prompt: 结构化数据，包含以下字段:
- content: 内容，数据类型为字符串 (string)
- role: 角色，数据类型为字符串 (string)
neg_question: 否定问题，数据类型为字符串 (string)
fewshot_context: 少量样本上下文，数据类型为字符串 (string)
ori_prompt: 原始提示，数据类型为字符串 (string)

数据集分割

开发集 (dev)
- 字节数: 4146
- 样本数: 5
测试集 (test)
- 字节数: 260517
- 样本数: 171

数据集大小

下载大小: 10872 字节
数据集大小: 264663 字节

搜集汇总

数据集介绍

构建方式

在宗教研究领域，数据集的构建往往需要严谨的学术支撑。本数据集基于MMLU基准中的世界宗教知识子集，通过引入否定前缀修正机制进行构建。具体而言，原始的多项选择题被系统性地处理，为每个问题生成了对应的否定形式问题，并整合了由OpenAI模型生成的否定提示词。数据划分遵循标准评估范式，包含用于少量样本学习的开发集和用于最终测试的测试集，确保了评估过程的科学性与可比性。

特点

该数据集的核心特征在于其独特的否定性知识评估框架。它不仅保留了原始MMLU世界宗教子集涵盖各大宗教传统与教义的高质量多项选择题，更通过精心设计的‘neg_question’和‘negate_openai_prompt’等字段，构建了一个用于检验模型在理解否定语义和对抗性提示方面能力的专门测试平台。数据结构清晰，每个样本均包含原问题、选项、答案、否定问题及结构化提示信息，为深入分析模型在复杂宗教知识语境下的推理行为提供了多维度的数据基础。

使用方法

在宗教知识计算建模研究中，本数据集主要服务于大型语言模型的评估与能力剖析。研究者可加载开发集进行少量样本学习或提示工程调优，随后在测试集上系统评估模型在标准问题和否定性问题上的表现差异。通过对比模型对‘question’与‘neg_question’的回答，特别是结合‘negate_openai_prompt’中的引导，可以定量分析模型对否定逻辑的敏感性及其知识表征的稳健性，从而推动更具鲁棒性和精确性的宗教领域人工智能应用发展。

背景与挑战

背景概述

在人工智能与自然语言处理领域，大规模多任务语言理解（MMLU）数据集已成为评估模型综合知识能力的重要基准。该数据集由研究人员于2020年提出，旨在通过涵盖57个学科的多选题，系统检验模型在专业领域的理解与推理水平。其中，joey234/mmlu-world_religions-neg-prepend-fix作为MMLU的子集，专注于世界宗教知识，其构建不仅深化了模型在人文社科领域的评估维度，更推动了跨学科知识表示研究的发展，为后续的伦理对齐与偏见分析提供了关键数据支撑。

当前挑战

该数据集核心挑战在于如何精准评估模型对复杂宗教概念与历史背景的深层理解，这要求模型不仅需掌握事实性知识，更应具备文化语境下的推理能力。构建过程中，挑战主要体现在数据标注的严谨性上，宗教文本往往蕴含微妙语义与多元解释，确保问题中立且答案无歧义需依赖领域专家反复校验。此外，数据集的否定形式变换（neg-prepend-fix）设计虽增强了对抗性测试，但也引入了逻辑一致性维护的难度，如何平衡问题改写与原始语义的保留成为技术难点。

常用场景

经典使用场景

在人工智能与自然语言处理领域，评估模型的知识理解与推理能力是核心任务之一。该数据集基于MMLU框架，聚焦于世界宗教主题，通过提供多项选择题及其否定形式，为大型语言模型的常识推理与知识掌握程度提供了标准化测试平台。研究者常利用此数据集对模型进行零样本或少样本评估，以检验其在特定领域知识上的泛化性能与逻辑一致性。

解决学术问题

该数据集有效应对了自然语言处理中模型知识评估的挑战，特别是针对领域专业知识与反事实推理的薄弱环节。通过引入否定性提问与修正机制，它帮助识别模型在宗教常识理解上的偏差与局限性，为提升模型的鲁棒性与可解释性提供了实证基础。其意义在于推动了知识密集型任务中评估方法的精细化，促进了AI系统在复杂语义场景下的可靠应用。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在知识增强与对抗性测试方向。部分研究利用其否定性提示改进模型的因果推理框架，探索知识图谱与语言模型的融合路径。另一些工作则将其扩展至多语言或多模态评估，以检验跨文化语境下的模型表现。这些进展共同推动了评估基准的多样化，为AI伦理与安全研究提供了关键数据支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集