five

TEMPORALWIKI

收藏
arXiv2023-04-12 更新2024-07-24 收录
下载链接:
https://github.com/joeljang/temporalwiki
下载链接
链接失效反馈
官方服务:
资源简介:
TEMPORALWIKI是由韩国科学技术院开发的一个持续性基准数据集,用于训练和评估不断进化的语言模型。该数据集利用英文维基百科和英文维基数据的连续快照之间的差异,构建了用于训练的TWIKI-DIFFSETS和用于评估的TWIKI-PROBES。数据集的创建过程完全自动化,每月随着维基媒体发布新的快照而更新,旨在解决语言模型因时间变化的需求而产生的知识更新问题。

TEMPORALWIKI is a sustained benchmark dataset developed by the Korea Advanced Institute of Science and Technology (KAIST) for training and evaluating evolving language models. It constructs TWIKI-DIFFSETS for model training and TWIKI-PROBES for model evaluation by leveraging the differences between consecutive snapshots of English Wikipedia and English Wikidata. The entire dataset creation workflow is fully automated, and it is updated monthly in line with new snapshots released by Wikimedia. Its core purpose is to address the knowledge update challenges faced by language models arising from temporal variations and shifting demands.
提供机构:
韩国科学技术院
创建时间:
2022-04-30
原始信息汇总

TemporaWiki 数据集概述

数据集来源

  • 数据集用于论文《TemporalWiki: A Lifelong Benchmark for Training and Evaluating Ever-Evolving Language Models》,该论文被 EMNLP 2022 接受。

数据集内容

  • 包含预处理的训练和评估数据,共5个时间快照,时间范围从2021年8月至2021年12月。
  • 数据集包括以下部分:
    • Wikipedia_Full: 完整的维基百科语料库。
    • TWiki_Diffsets: 差异集,用于主要实验。
    • TWiki_Probes: 探针集,用于评估。

数据集下载

数据集使用

  • 数据集用于进行持续预训练和轻量级微调实验。
  • 实验配置和组件详情请参考 Continual-Knowledge-Learning 仓库。

数据集生成

搜集汇总
数据集介绍
main_image_url
构建方式
在动态知识更新领域,TEMPORALWIKI 的构建采用了自动化且持续的方法。该数据集通过比较连续时间点的英文维基百科快照,提取其中新增或修改的文本片段,形成训练语料库 TWIKI-DIFFSETS。同时,利用对应时间点的维基数据快照,通过算法识别事实实例的变化状态,构建评估数据集 TWIKI-PROBES。整个过程无需人工标注,确保了数据集的时效性和可扩展性,能够随着维基百科和维基数据的月度更新而自动演进。
特点
TEMPORALWIKI 的核心特点在于其终身性和动态适应性。作为首个专注于语言模型时态对齐问题的基准数据集,它提供了训练与评估的双重机制,能够量化模型在知识保留与更新之间的平衡能力。数据集覆盖了广泛的事实性知识变化,包括新增、修改及未变实例,并通过严格的质量控制步骤,如与维基百科文章的实体对齐和启发式过滤,确保了数据的可靠性与一致性。其模块化设计支持周期性自动化评估,为研究时态错位问题提供了系统化工具。
使用方法
使用 TEMPORALWIKI 时,研究者可将其应用于语言模型的持续预训练与评估流程中。训练阶段,利用 TWIKI-DIFFSETS 对模型进行增量更新,以高效学习新知识;评估阶段,则通过 TWIKI-PROBES 测量模型在未变事实上的稳定性与在变化事实上的可塑性。该数据集支持多种实验设置,包括零样本评估、轻量微调及与持续学习方法的结合,帮助探索模型在多次更新中的遗忘与适应行为,从而推动时态演化语言模型的发展。
背景与挑战
背景概述
在自然语言处理领域,语言模型的知识更新滞后于现实世界动态变化的问题日益凸显,这一现象被称为时间错位。为应对此挑战,KAIST与LG AI Research等机构的研究团队于2023年推出了TEMPORALWIKI数据集。该数据集以英文维基百科和维基数据的连续快照为基础,构建了终身性基准测试框架,旨在系统评估语言模型在持续演变知识库中的适应能力。其核心研究聚焦于如何高效训练动态演化语言模型,并自动化追踪模型在知识保留与更新方面的性能,为时间敏感型知识密集型任务提供了关键研究基础设施。
当前挑战
TEMPORALWIKI数据集致力于解决语言模型在动态知识更新中的核心挑战:如何克服时间错位导致的事实性知识过时问题。具体而言,该数据集构建过程中面临双重挑战:其一,在领域问题层面,需精准捕捉维基百科连续快照间的知识差异,并设计评估机制以量化模型在稳定性与可塑性之间的平衡;其二,在技术实现层面,需建立自动化流程对齐维基百科与维基数据的时序更新,并通过启发式过滤规则确保评估数据的质量,同时应对海量知识实体关系抽取中的噪声干扰与分布偏差问题。
常用场景
经典使用场景
在动态知识更新领域,TEMPORALWIKI作为终身基准,其经典应用场景聚焦于评估语言模型在时序知识对齐中的适应能力。通过对比连续时间点的维基百科快照差异构建训练语料,该数据集使研究者能够系统性地模拟语言模型在真实世界知识演变环境下的持续学习过程,尤其适用于探究模型在多次迭代更新中如何平衡新知识获取与旧知识保留的核心挑战。
解决学术问题
该数据集有效应对了语言模型中的时序失准问题,即模型因训练数据与实时世界知识脱节而导致的性能衰退。通过提供自动化、周期性的评估框架,TEMPORALWIKI使得研究者能够量化模型在知识更新过程中的稳定性与可塑性权衡,从而推动针对灾难性遗忘、高效持续学习策略等关键学术议题的实证研究,为构建适应动态世界的演化式语言模型奠定方法论基础。
衍生相关工作
围绕TEMPORALWIKI衍生的经典工作主要集中于持续学习方法的创新与评估。例如,研究者基于该数据集验证了参数扩展型适配器、低秩适应技术等策略在缓解灾难性遗忘方面的有效性;同时,相关研究进一步探索了时序语言建模的优化范式,推动了对动态知识融合、跨时间泛化能力等前沿方向的系统性探索,为后续构建可进化知识库的智能模型提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作