Knowledge Robustness Evaluation (KRE) Dataset

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/yingjiahao14/KRE

下载链接

链接失效反馈

官方服务：

资源简介：

知识鲁棒性评估(KRE)数据集，用于研究大型语言模型在面对冲突提示时的行为风格。数据集包含从现有数据集SQuAD, MuSiQue, ECQA和e-CARE中提取的问题及其答案、上下文等信息，用于测试和评估模型的鲁棒性。

Knowledge Robustness Evaluation (KRE) Dataset is designed to explore the behavioral patterns of Large Language Models (LLMs) when faced with conflicting prompts. This dataset contains questions, their corresponding answers, contexts and other relevant information extracted from existing datasets including SQuAD, MuSiQue, ECQA and e-CARE, and is employed to test and evaluate the robustness of models.

创建时间：

2024-04-11

原始信息汇总

数据集概述

数据集名称

Intuitive or Dependent? Investigating LLMs Behavior Style to Conflicting Prompts

数据集描述

该数据集是用于评估知识鲁棒性的数据集（Knowledge Robustness Evaluation, KRE），旨在研究大型语言模型（LLMs）在面对冲突提示时的行为风格。

数据实例

json { "question": "The child brought psycho-physical phenomena on a new life. What is the more possible cause of this?", "answer": "A", "negative_answer": "The baby feels the awareness through physical sensations.", "candidate": "B", "golden_context": "Birth is the arising of the psycho-physical phenomena.", "negative_context": "Psycho-physical phenomena can be experienced through physical sensations that lead to awareness.", "choices": [ "The woman gave birth to a child.", "The baby feels the awareness through physical sensations." ] }

数据字段

question: 来自现有数据集 SQuAD、MuSiQue、ECQA 和 e-CARE 的原始问题。
answer: 问题的正确/黄金答案。
golden_context: 支持正确答案的上下文。
negative_answer: 候选答案之一。
negative_context: 支持负面答案的上下文。
choices: 候选答案集合。

数据统计

该数据集仅包含测试样本，以下是知识鲁棒性评估（KRE）数据集的语料库级别统计信息。

少样本示例

每个配置的每个数据集都有 e_1.txt 到 e_6.txt 文件。其中 e_1.txt 到 e_3.txt 是正面的，答案总是正确的，而 e_4.txt 到 e_6.txt 是负面的。

搜集汇总

数据集介绍

构建方式

Knowledge Robustness Evaluation (KRE) 数据集的构建基于对现有数据集（如SQuAD、MuSiQue、ECQA和e-CARE）的深入分析。通过精心设计的问题和答案对，该数据集旨在评估大型语言模型（LLMs）在面对冲突提示时的行为风格。具体而言，每个数据实例包含一个原始问题、正确答案、支持正确答案的上下文、一个候选错误答案及其支持上下文，以及一组候选答案。这种结构化的设计确保了数据集在测试模型知识鲁棒性方面的有效性和全面性。

特点

KRE数据集的显著特点在于其专注于评估大型语言模型在处理冲突提示时的鲁棒性。通过提供正反两方面的上下文和答案，该数据集能够全面测试模型在复杂情境下的决策能力。此外，数据集的结构化设计使得每个实例都包含丰富的信息，从而为模型的评估提供了多维度的视角。这种设计不仅增强了数据集的实用性，也为其在学术研究和实际应用中的广泛使用奠定了基础。

使用方法

使用KRE数据集时，研究者可以通过加载数据实例来评估模型在处理冲突提示时的表现。每个实例包含的问题、答案及其上下文可以用于训练和测试模型，以确保其在面对复杂和多变的情境时仍能保持高准确性。此外，数据集提供的少量示例文件（e_1.txt至e_6.txt）可用于进一步的微调实验，帮助研究者更好地理解模型的行为模式。通过系统的实验设计和数据分析，KRE数据集为提升大型语言模型的鲁棒性和可靠性提供了宝贵的资源。

背景与挑战

背景概述

知识鲁棒性评估（Knowledge Robustness Evaluation, KRE）数据集由Jiahao Ying等研究人员于2024年创建，旨在探讨大型语言模型（LLMs）在面对冲突提示时的行为模式。该数据集基于SQuAD、MuSiQue、ECQA和e-CARE等现有数据集构建，通过引入正负上下文和候选答案，评估模型在复杂语境下的知识鲁棒性。KRE数据集的核心研究问题是如何在多变的提示条件下保持模型的决策一致性和准确性，这对于提升自然语言处理系统的可靠性和应用广泛性具有重要意义。

当前挑战

KRE数据集在构建过程中面临的主要挑战包括：首先，如何设计有效的正负上下文和候选答案，以确保数据集能够全面评估模型的鲁棒性；其次，如何在有限的测试样本中捕捉到模型在不同提示条件下的行为变化，这是一个统计学上的挑战。此外，数据集的构建还需考虑如何平衡不同数据源的多样性和一致性，以避免偏见和误导模型的评估结果。这些挑战共同构成了KRE数据集在实际应用中的复杂性和重要性。

常用场景

经典使用场景

在自然语言处理领域，Knowledge Robustness Evaluation (KRE) 数据集被广泛用于评估大型语言模型（LLMs）在面对冲突提示时的行为风格。该数据集通过提供包含正确答案和错误答案的对比情境，帮助研究者深入分析模型在复杂语境下的决策过程。经典的使用场景包括但不限于：通过对比分析模型在不同上下文中的响应，揭示其对知识一致性的敏感度，以及在多重信息干扰下的表现。

实际应用

在实际应用中，KRE 数据集为开发更加智能和可靠的自然语言处理系统提供了重要支持。例如，在智能客服、自动翻译和信息检索等领域，模型需要能够在面对冲突或误导性信息时保持准确和一致的响应。通过使用KRE数据集进行训练和评估，开发者可以显著提升这些系统在实际应用中的表现，确保其在复杂和多变的用户交互环境中依然能够提供高质量的服务。

衍生相关工作

基于KRE数据集，研究者们开展了一系列相关工作，进一步推动了自然语言处理领域的发展。例如，有研究利用该数据集开发了新的模型训练方法，以提升模型在面对冲突信息时的鲁棒性；还有研究通过分析数据集中的对比情境，提出了新的评估指标，用以更全面地衡量模型的表现。这些工作不仅丰富了自然语言处理的研究工具箱，也为实际应用中的模型优化提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集