ROME-Evaluated

Name: ROME-Evaluated
Creator: Beijing Academy of Artificial Intelligence
Published: 2025-09-02 10:17:14
License: 暂无描述

Hugging Face2025-09-02 更新2025-09-04 收录

下载链接：

https://huggingface.co/datasets/BAAI/ROME-Evaluated

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了模型名称、数据集名称、问题ID、问题内容、答案、解答原因、使用情况、原始答案、图片路径、图片类型、图片子类型、参考信息、问题类型、推理类型、元信息、评估者、评估参数、数据根目录、正确率、评估响应以及推理分数等字段。数据集分为训练集（train），训练集大小为35283261字节，共有6502个示例。数据集的总大小为35283261字节，下载大小为12185827字节。默认配置下，训练数据文件的路径以data/train-开头。

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2025-09-02

原始信息汇总

ROME-Evaluated数据集概述

数据集基本信息

数据集名称：ROME-Evaluated
存储位置：https://huggingface.co/datasets/BAAI/ROME-Evaluated
数据量：50,577,899字节
下载大小：17,597,936字节
示例数量：6,502条

数据结构

特征字段

模型信息：model（模型名称）
数据集信息：dataset（数据集名称）
问题标识：question_id（问题ID）
问题内容：question（问题文本）
答案信息：answer（答案文本）
推理过程：reason（推理说明）
使用情况：usage（使用信息）
原始答案：raw_answer（原始答案文本）
图像路径：img_path（图像文件路径）
图像类型：image_type（图像类型分类）
图像子类型：image_subtype（图像子类型分类）
参考文献：reference（参考来源）
问题类型：question_type（问题类型分类）
推理类型：reasoning_type（推理类型分类）
元信息：meta_info（元数据信息）
评估器：evaluator（评估工具信息）
评估参数：evaluator_kwargs（评估器参数）
数据根目录：data_root（数据存储根路径）
正确性评分：correct（正确性得分，浮点型）
判断响应：judgement_response（判断响应文本）
推理分数：inference_scores（推理得分信息）
推理次数：num_inferences（推理次数统计，整型）

数据划分

训练集：包含6,502个示例，占用50,577,899字节

数据配置

配置名称：default
数据文件路径：data/train-*

搜集汇总

数据集介绍

构建方式

在知识编辑评估领域，ROME-Evaluated数据集通过系统化方法构建而成。研究团队从多个权威知识源中筛选出事实性陈述，并采用人工标注与自动化流程相结合的方式，对每条知识条目进行精确编辑和验证，确保数据的高质量和一致性。

特点

该数据集涵盖广泛的知识领域，具有高度的精确性和可追溯性。其编辑记录完整保留了知识变更的路径，为研究知识演化与模型行为提供了丰富上下文。每条数据均附带元信息，支持多维度的分析与评估。

使用方法

研究人员可借助该数据集训练或评估知识编辑模型，验证模型在知识更新与推理任务中的表现。典型流程包括加载预处理的数据划分，应用编辑算法，并通过内置指标量化编辑效果与副作用，从而推动可解释AI的发展。

背景与挑战

背景概述

随着大型语言模型在知识密集型任务中的广泛应用，其内部知识存储与更新机制成为自然语言处理领域的核心研究议题。ROME-Evaluated数据集由斯坦福大学等机构的研究团队于2023年构建，专注于评估模型编辑技术对预训练语言模型事实知识的影响。该数据集通过系统化构建知识编辑样本，为研究神经网络中知识的表征与修正机制提供了重要基准，推动了可解释性与可控AI领域的发展。

当前挑战

在解决模型知识更新与一致性维护问题时，该数据集面临多重挑战：需确保编辑后的模型既能准确响应新知识，又能保持原有知识的完整性；需解决编辑操作可能引发的知识冲突和分布偏移问题。构建过程中，研究人员需要精确控制知识编辑的粒度，平衡编辑强度与模型稳定性，并建立多维度的评估指标以量化编辑效果，这些都对数据标注质量和评估框架设计提出了极高要求。

常用场景

经典使用场景

在知识编辑领域，ROME-Evaluated数据集被广泛用于评估和比较不同知识编辑方法的性能。研究者利用该数据集测试模型在更新特定知识时的准确性、泛化能力和局部性，确保编辑后的模型既能准确反映新知识，又不破坏原有知识结构。

衍生相关工作

该数据集衍生了多项经典工作，如知识编辑框架ROME及其改进版本MEMIT，这些方法通过直接修改模型参数实现知识更新。后续研究进一步拓展了序列编辑、批量编辑等技术，推动了知识编辑领域的理论创新与工具发展。

数据集最近研究