wikidata

github2025-02-06 更新2025-02-21 收录

下载链接：

https://github.com/javiferran/sae_entities

下载链接

链接失效反馈

官方服务：

资源简介：

README文件中提到的wikidata数据集用于创建实体查询。

The wikidata dataset mentioned in the README file is used to create entity queries.

创建时间：

2025-02-03

原始信息汇总

数据集概述

基本信息

数据集名称：Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
论文链接：https://arxiv.org/abs/2411.14257
引用信息： bibtex @inproceedings{ ferrando2025iknowentityknowledge, title={Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models}, author={Javier Ferrando and Oscar Obeso and Senthooran Rajamanoharan and Neel Nanda}, booktitle={The Thirteenth International Conference on Learning Representations}, year={2025}, url={https://openreview.net/forum?id=WCRQFlji2q} }

数据集结构

/dataset：包含创建数据集和运行模型生成的代码，以及处理后的生成数据 /dataset/processed。
/mech_interp：包含对SAE潜在变量进行分析的代码。

数据获取与处理

获取实体令牌的残差流激活： bash python -m utils.activation_cache --model_alias gemma-2-2b --tokens_to_cache entity --batch_size 128 --entity_type_and_entity_name_format
获取Pile数据集的随机令牌激活： bash python -m utils.activation_cache --model_alias gemma-2-2b --tokens_to_cache random --batch_size 128 --dataset pile
运行模型生成（可选）： bash python -m dataset.process_data.wikidata.create_wikidata_entity_queries --model_path gemma-2-2b --free_generation False

潜在变量分析

分析脚本：mech_interp/feature_analysis.py
功能：计算所有层的SAE潜在变量得分，并运行指标以找到最相关的潜在变量。

不确定性潜在变量

生成和缓存指令令牌末尾的model令牌激活（仅适用于Gemma模型）： bash python -m utils.activation_cache --model_alias gemma-2b-it --tokens_to_cache model --batch_size 128

搜集汇总

数据集介绍

构建方式

该wikidata数据集的构建主要依托于深度学习模型Gemma 2 2B的激活信息。首先，通过特定脚本在模型中缓存实体标记的残差流激活，同时排除在Pile数据集中随机标记上激活频繁的潜在变量。然后，通过创建wikidata实体查询，生成数据集，并存储于'/dataset/processed'目录下。

使用方法

使用wikidata数据集时，用户需先设置虚拟环境并安装所有依赖项。之后，可以通过运行特定的脚本来缓存模型激活信息，或进行模型生成。分析SAE潜在变量时，可以利用'mech_interp/feature_analysis.py'脚本计算各层的潜在分数，并运行度量以确定最相关的潜在变量。

背景与挑战

背景概述

wikidata数据集，作为知识图谱领域的重要资源，其研究背景源于对语言模型在知识识别与伪造现象中的认知。该数据集由Javier Ferrando、Oscar Obeso、Senthooran Rajamanoharan和Neel Nanda等研究人员于2025年创建，旨在探索语言模型对实体的知识意识和伪造现象。数据集的构建基于Wikidata这一开放的知识库，其对相关领域的影响力体现在对语言模型知识理解能力的评估和优化上。

当前挑战

该数据集面临的挑战主要涉及两个方面：一是如何在海量的Wikidata知识库中有效抽取和构建实体相关的问题，以确保数据集的代表性；二是如何准确评估和区分语言模型在处理实体信息时的知识意识和伪造现象，这对于模型的可解释性和可靠性至关重要。构建过程中的挑战还包括数据清洗、实体关系的映射以及大规模数据处理的效率问题。

常用场景

经典使用场景

在深入探索自然语言处理模型对实体知识的掌握程度方面，wikidata数据集提供了丰富的实体及其属性信息。该数据集的经典使用场景在于评估和量化语言模型对于维基数据实体知识的认知水平，以及模型在实体识别和知识检索任务中的表现。

解决学术问题

该数据集解决了如何准确衡量语言模型在处理具体实体时的知识掌握度和准确性问题，对于理解模型在知识图谱领域的应用潜力具有显著意义。它为学术研究提供了实体知识覆盖的深度和广度，有助于揭示模型在知识获取和推理方面的不足。

实际应用

在实际应用中，wikidata数据集可被用于增强搜索引擎的实体检索功能，提升推荐系统的相关性，以及优化对话系统中的知识问答能力。这些应用场景均依赖于对实体及其相关属性的深入理解。

数据集最近研究