five

ROME-Evaluated

收藏
Hugging Face2025-09-02 更新2025-09-04 收录
下载链接:
https://huggingface.co/datasets/BAAI/ROME-Evaluated
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了模型名称、数据集名称、问题ID、问题内容、答案、解答原因、使用情况、原始答案、图片路径、图片类型、图片子类型、参考信息、问题类型、推理类型、元信息、评估者、评估参数、数据根目录、正确率、评估响应以及推理分数等字段。数据集分为训练集(train),训练集大小为35283261字节,共有6502个示例。数据集的总大小为35283261字节,下载大小为12185827字节。默认配置下,训练数据文件的路径以data/train-开头。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2025-09-02
原始信息汇总

ROME-Evaluated数据集概述

数据集基本信息

  • 数据集名称:ROME-Evaluated
  • 存储位置:https://huggingface.co/datasets/BAAI/ROME-Evaluated
  • 数据量:50,577,899字节
  • 下载大小:17,597,936字节
  • 示例数量:6,502条

数据结构

特征字段

  • 模型信息:model(模型名称)
  • 数据集信息:dataset(数据集名称)
  • 问题标识:question_id(问题ID)
  • 问题内容:question(问题文本)
  • 答案信息:answer(答案文本)
  • 推理过程:reason(推理说明)
  • 使用情况:usage(使用信息)
  • 原始答案:raw_answer(原始答案文本)
  • 图像路径:img_path(图像文件路径)
  • 图像类型:image_type(图像类型分类)
  • 图像子类型:image_subtype(图像子类型分类)
  • 参考文献:reference(参考来源)
  • 问题类型:question_type(问题类型分类)
  • 推理类型:reasoning_type(推理类型分类)
  • 元信息:meta_info(元数据信息)
  • 评估器:evaluator(评估工具信息)
  • 评估参数:evaluator_kwargs(评估器参数)
  • 数据根目录:data_root(数据存储根路径)
  • 正确性评分:correct(正确性得分,浮点型)
  • 判断响应:judgement_response(判断响应文本)
  • 推理分数:inference_scores(推理得分信息)
  • 推理次数:num_inferences(推理次数统计,整型)

数据划分

  • 训练集:包含6,502个示例,占用50,577,899字节

数据配置

  • 配置名称:default
  • 数据文件路径:data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在知识编辑评估领域,ROME-Evaluated数据集通过系统化方法构建而成。研究团队从多个权威知识源中筛选出事实性陈述,并采用人工标注与自动化流程相结合的方式,对每条知识条目进行精确编辑和验证,确保数据的高质量和一致性。
特点
该数据集涵盖广泛的知识领域,具有高度的精确性和可追溯性。其编辑记录完整保留了知识变更的路径,为研究知识演化与模型行为提供了丰富上下文。每条数据均附带元信息,支持多维度的分析与评估。
使用方法
研究人员可借助该数据集训练或评估知识编辑模型,验证模型在知识更新与推理任务中的表现。典型流程包括加载预处理的数据划分,应用编辑算法,并通过内置指标量化编辑效果与副作用,从而推动可解释AI的发展。
背景与挑战
背景概述
随着大型语言模型在知识密集型任务中的广泛应用,其内部知识存储与更新机制成为自然语言处理领域的核心研究议题。ROME-Evaluated数据集由斯坦福大学等机构的研究团队于2023年构建,专注于评估模型编辑技术对预训练语言模型事实知识的影响。该数据集通过系统化构建知识编辑样本,为研究神经网络中知识的表征与修正机制提供了重要基准,推动了可解释性与可控AI领域的发展。
当前挑战
在解决模型知识更新与一致性维护问题时,该数据集面临多重挑战:需确保编辑后的模型既能准确响应新知识,又能保持原有知识的完整性;需解决编辑操作可能引发的知识冲突和分布偏移问题。构建过程中,研究人员需要精确控制知识编辑的粒度,平衡编辑强度与模型稳定性,并建立多维度的评估指标以量化编辑效果,这些都对数据标注质量和评估框架设计提出了极高要求。
常用场景
经典使用场景
在知识编辑领域,ROME-Evaluated数据集被广泛用于评估和比较不同知识编辑方法的性能。研究者利用该数据集测试模型在更新特定知识时的准确性、泛化能力和局部性,确保编辑后的模型既能准确反映新知识,又不破坏原有知识结构。
衍生相关工作
该数据集衍生了多项经典工作,如知识编辑框架ROME及其改进版本MEMIT,这些方法通过直接修改模型参数实现知识更新。后续研究进一步拓展了序列编辑、批量编辑等技术,推动了知识编辑领域的理论创新与工具发展。
数据集最近研究
最新研究方向
随着大型语言模型参数编辑技术的快速发展,ROME-Evaluated数据集已成为评估模型事实知识更新能力的关键基准。该数据集聚焦于知识编辑领域的前沿挑战,通过构建因果中介分析框架下的精确评估指标,有效追踪模型在编辑后对特定事实的保持与泛化性能。当前研究热点集中于探索编辑操作对模型内部表征的扰动机制,以及如何提升编辑效果的持久性与一致性,相关成果对实现可控AI知识更新及减少幻觉现象具有重要推动作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作