MQuAKE-Remastered

Hugging Face2025-03-07 更新2025-03-08 收录

下载链接：

https://huggingface.co/datasets/henryzhongsc/MQuAKE-Remastered

下载链接

链接失效反馈

官方服务：

资源简介：

MQuAKE-Remastered是一个改进的多跳知识编辑基准数据集，旨在提高大型语言模型中多跳知识编辑的评估可靠性。该数据集修正了原始MQuAKE数据集中的问题，并提供了四个不同的变体以满足不同的评估需求。

创建时间：

2025-03-01

搜集汇总

数据集介绍

构建方式

MQuAKE-Remastered数据集的构建，是在原始MQuAKE数据集的基础上进行的扩展与优化。该数据集针对原始版本中存在的问题进行了修正，包括编辑污染、问题指令中信息缺失、冲突编辑和重复案例等，确保了多跳知识编辑评估的可靠性。数据集包含四种类型的子集，分别是CF-3k、CF-9k、CF-6334和T，每个子集都针对不同的评估需求进行了设计。

使用方法

使用MQuAKE-Remastered数据集时，用户可以通过Hugging Face的datasets库直接加载。针对不同的子集和评估需求，用户可以选择合适的版本进行训练和测试。例如，使用CF-6334子集时，用户可以根据编辑案例的数量进行训练和测试数据的划分，以适应不同的评估目的。

背景与挑战

背景概述

MQuAKE-Remastered数据集是在原始MQuAKE数据集的基础上进行扩展和精炼的成果，旨在提升大型语言模型中多跳知识编辑的评价效果。该数据集由普林斯顿自然语言处理团队维护，并在2023年发布。MQuAKE-Remastered针对原始数据集中存在的编辑污染、问题指令中信息缺失、冲突编辑和重复案例等关键问题进行了改进，提供了一个更为可靠的评估基准。该数据集包含四个子集，分别针对不同的应用场景和编辑方法，为研究人员提供丰富的测试案例。

当前挑战

在构建MQuAKE-Remastered数据集的过程中，研究人员面临着多个挑战。首先，确保编辑的准确性和案例的唯一性是关键，这要求对原始数据集进行细致的错误检查和修正。其次，构建结构化的知识表示并保持其一致性，以便于模型训练和评估，也是一项复杂的工作。此外，针对多跳知识编辑的评估，数据集需要设计合理的问题和答案，以及相应的推理步骤，从而全面考察模型的知识编辑能力。

常用场景

经典使用场景

MQuAKE-Remastered数据集作为衡量大型语言模型中多跳知识编辑性能的基准，其经典使用场景在于为研究提供了含有事实编辑的复杂数学问题案例。通过设计涵盖不同类型的事实错误，该数据集能够评估模型在执行知识编辑任务时的准确性和鲁棒性。

解决学术问题

该数据集解决了在多跳推理任务中，知识编辑的评估标准不一、数据集质量参差不齐的问题。它通过清理和修正原始MQuAKE数据集中的错误，提供了更为可靠的评估标准，使得研究者能够更准确地评估模型在知识编辑方面的性能。

实际应用

在实际应用中，MQuAKE-Remastered数据集可用于训练和评估机器学习模型，以便模型能够更好地理解和处理涉及多步推理和知识编辑的复杂任务，如自动问答、知识图谱补全等。

数据集最近研究