DUET_LLM

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/SwetieePawsss/DUET_LLM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个结构化数据分片，主要围绕知识图谱的三元组结构（主体-关系-客体）构建。核心特征包括：来源CSV文件路径、主体标签、关系属性、客体标签、对应的Wikidata QID/PID标识符、自然语言问题、答案文本、主体和客体的流行度评分（pop_subject, pop_object）、总流行度（pop_sum）、基于Llama 8B模型生成的文本（best_gen_Llama_8b_Instract）及其召回率（gen_recall）、BERT相似度评分（bert_sim）以及三元组流行度指标（triple_pop）。数据集包含16个预定义分片，涵盖不同数据分布场景（如city_forget_rare_1、city_forget_popular_1等），总规模约9.75MB，包含9658个完整样例。各分片针对不同实验需求设计，包括保留交集数据（city_retain_intersection_80/90/98）、快速保留集（city_fast_retain_500/1500）以及LLM评分数据（llm_city5/10_rare/popular_score）。适用场景可能包括知识图谱补全、问答系统评估或语言模型生成质量分析。

创建时间：

2026-05-06

原始信息汇总

根据您提供的README文件内容，以下是该数据集的详情总结：

数据集概述

该数据集名为 DUET_LLM，主要用于知识图谱与语言模型相关的研究，特别是围绕城市主题的实体与关系学习。

数据集特征

数据集包含17个字段，具体如下：

字段名	数据类型	说明
source_csv	string	来源CSV文件名称
subjectLabel	string	主语标签
relation	string	关系
objectLabel	string	宾语标签
subject_qid	string	主语QID
property_pid	string	属性PID
object_qid	string	宾语QID
question	string	问题文本
answer	string	答案文本
pop_subject	float64	主语流行度
pop_object	float64	宾语流行度
pop_sum	float64	流行度总和
best_gen_Llama_8b_Instract	string	Llama-8B模型最佳生成结果
gen_recall_Llama_8b_Instract	float64	Llama-8B模型生成召回率
bert_sim_Llama_8b_Instract	float64	Llama-8B模型BERT相似度
triple_pop	int64	三元组流行度

数据集划分

该数据集包含16个数据划分，用于不同的实验场景：

划分名称	样本数量	字节数
city_forget_rare_1	96	25,771
city_forget_popular_1	96	18,480
city_retain_intersection_98	9,466	2,071,198
llm_city5_rare_score	482	131,023
llm_city5_popular_score	482	89,557
city_retain_intersection_90	8,694	1,894,869
llm_city10_rare_score	965	257,978
llm_city10_popular_score	965	179,901
city_retain_intersection_80	7,728	1,677,570
city_fast_retain_500	500	105,706
city_fast_retain_1500	1,500	313,198
city_full	9,658	2,115,449
paraphrases_city_forget_popular_5	962	183,984
paraphrases_city_forget_rare_5	902	244,907
llm_city10_rare_score_seed42	965	257,978
llm_city10_popular_score_seed42	965	179,901

数据集规模

总下载大小：2,923,359 字节
总数据集大小：9,747,470 字节
配置：仅有一个默认配置（default）

搜集汇总

数据集介绍

构建方式

DUET_LLM数据集专为探索大语言模型在知识遗忘与保留任务中的表现而设计，其构建依托于维基百科知识图谱中的结构化三元组数据。每个样本包含主体、关系、客体及其对应QID与PID标识，辅以主体与客体的流行度数值及和值。研究人员进一步利用Llama-8B-Instruct模型对三元组生成问答对，并记录生成的回答文本、生成召回率与BERT相似度，从而形成一套衡量模型知识掌握程度的量化指标。数据集划分出多个子集，包括针对罕见与流行知识的遗忘集、保留集，以及经过困惑度或种子随机化筛选的评分集，全面覆盖不同知识属性与实验场景。

特点

该数据集的核心特色在于其多维度的知识度量体系与精细化的子集设计。每个三元组均附带主体与客体的流行度评分，结合LLM生成的问答对质量指标如召回率与语义相似度，为评估模型知识表征提供了从事实正确性到生成可靠性的立体视角。数据集包含16个不同子集，如city_forget_rare_1与city_forget_popular_1用于遗忘实验，city_retain_intersection系列则支持保留率从80%到98%的精细化控制，此外还有基于不同城市数量与随机种子的评分子集，便于研究者灵活设计对比实验，深入分析知识遗忘与泛化机制。

使用方法

使用者可通过HuggingFace Datasets库加载DUET_LLM数据集，指定default配置即可获取全部16个子集。每个子集以Parquet文件形式存储，包含从三元组到问答对的完整字段。实验时，可根据研究目标选择特定子集，例如使用city_forget_rare_1评估模型对罕见知识的遗忘曲线，或利用llm_city10_rare_score子集结合种子参数进行可重复性分析。由于数据集中已预先生成了基于Llama-8B-Instruct的问答对和评分指标，研究者可直接复用这些结果，或将其作为基线，进一步在自己的模型上生成答案并计算相似度，从而高效开展对比研究。

背景与挑战

背景概述

DUET_LLM数据集是在大型语言模型（LLM）知识编辑与知识遗忘研究快速发展的背景下构建的，旨在系统评估模型在记忆与遗忘特定知识，尤其是城市相关知识方面的能力。该数据集由相关研究团队创建，核心研究问题聚焦于如何在不损伤模型整体性能的前提下，精准地删除或修正其内部存储的事实性知识，例如城市的人口、地理位置等三元组信息。数据集内含丰富的知识三元组（主体-属性-客体）、对应的问题-答案对以及基于Llama-8B-Instruct模型生成的多维度评分（包括最佳生成结果、召回率和BERT语义相似度），为知识编辑的精确性、鲁棒性和模型遗忘机制提供了标准化的评估基准。其影响力在于为LLM的知识操控研究提供了可量化、细粒度的测试样本，推动了模型安全性与可控性的深入探索。

当前挑战

该数据集所解决的领域核心挑战在于大型语言模型的知识编辑与选择性遗忘问题。具体而言，机器遗忘面临两大关键困境：一是如何在移除特定敏感或过时知识（例如数据集中划分的`city_forget_*`子集）时，确保模型对已保留的通用知识（`city_retain_*`子集）的回忆能力和生成质量不被显著削弱；二是如何实现遗忘的精确性，避免误伤语义相近或相关度高的其他知识。在数据集构建过程中，挑战主要体现在知识三元组的自动挖掘与平衡、遗忘目标与保留目标的合理划分（依据知识流行度`pop_sum`与三元组频率`triple_pop`），以及基于Llama模型生成评分时的评估指标对齐——如何确保BERT语义相似度等评分能忠实反映知识遗忘的真实效果，而非仅捕捉表面词汇模式的改变。

常用场景

经典使用场景

DUET_LLM数据集面向大语言模型的知识编辑与遗忘研究，经典用途是评估模型在面对特定事实三元组（如城市属性关系）时，执行知识更新、修正或选择性遗忘的能力。研究者通过构建包含流行与稀有知识的问答对，并配合保留集与遗忘集，系统性地测试模型在修改后是否准确回应更新事实、同时保持对其他无关知识的稳定性。该场景常被用于衡量基于梯度更新、模型微调或记忆重写等知识编辑技术的有效性，是分析LLM知识可塑性与鲁棒性的理想实验平台。

解决学术问题

该数据集解决了大语言模型知识固化与动态更新之间的矛盾这一核心学术问题。传统模型在预训练后知识难以修正，易产生幻觉或无法遗忘敏感信息。DUET_LLM提供了标准化的遗忘与保留基准，使研究者能够量化不同编辑方法在流行与稀有知识上的表现差异，深入探究模型记忆的层次结构（如高频知识的顽固性与低频知识的脆弱性）。其意义在于为构建可信、可控、可追溯的AI系统提供实验依据，促进从静态知识存储向动态知识管理的范式转变。

衍生相关工作

围绕DUET_LLM衍生了一系列重要研究工作。基于其评估框架，研究者提出了记忆增强式编辑方法（如MEND、ROME）的性能对比，并发展出知识遗忘与持续学习的融合算法。部分工作借助其细粒度分割（如保留集与遗忘集的不同比例）揭示了LLM知识存储的局部性与模式连通性。此外，该数据集催生了针对知识编辑鲁棒性的对抗测试集构建，以及基于复述（paraphrases）的通用性评估方法，推动了知识编辑领域从单一事实修改走向系统性知识治理的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集