five

WikiTiDe

收藏
arXiv2023-08-18 更新2024-06-21 收录
下载链接:
https://github.com/hsuvas/wikitide
下载链接
链接失效反馈
官方服务:
资源简介:
WikiTiDe是一个基于维基百科的时间戳定义对数据集,由卡迪夫大学和AMPLYFI合作创建。该数据集包含10,000对时间戳定义,旨在加速历时性自然语言处理,特别是训练模型以扫描知识资源中的核心更新。数据集创建过程采用全自动的引导算法,逐步构建高质量数据集。WikiTiDe的应用领域包括词汇语义任务和有效扫描维基百科中的关键更新,旨在解决语言模型对新信息处理的局限性。

WikiTiDe is a Wikipedia-based timestamp definition pair dataset, co-created by Cardiff University and AMPLYFI. This dataset contains 10,000 pairs of timestamp definitions, and is designed to accelerate diachronic natural language processing, particularly for training models to scan for core updates in knowledge resources. The dataset was constructed using a fully automated bootstrapping algorithm that incrementally builds high-quality labeled data pairs. Application domains of WikiTiDe include lexical semantic tasks and efficient scanning of critical updates on Wikipedia, aiming to address the limitations of language models in processing emerging information.
提供机构:
卡迪夫大学
创建时间:
2023-08-07
搜集汇总
数据集介绍
main_image_url
构建方式
在历时自然语言处理领域,捕捉语言与知识的动态演变至关重要。WikiTiDe数据集的构建采用了一种端到端的自动化方法,其核心在于从维基百科条目中提取带时间戳的定义对。具体流程首先从维基百科页面集合中随机采样,针对每个页面,依据其编辑时间轴选取两个时间间隔足够远的定义(通常是条目的首句),从而初步构建一个包含一万个未标注定义对的数据池。随后,通过结合多个ChatGPT实例进行弱监督标注,对其中30%的数据进行精细分类,标签体系区分定义对之间是无实质变化、语义相似但非根本性更新,抑或是反映概念或实体根本性演变。最终,通过一种自举算法迭代地扩展数据集,即在每一轮中训练分类器,从剩余未标注数据中筛选高置信度的预测样本加入训练集,以此逐步提升数据集的规模与质量。
特点
WikiTiDe数据集的核心特点在于其专注于历时性定义比较,为语言模型应对知识更新提供了专门化的基准。该数据集的所有样本均源自维基百科,确保了数据源的动态性与广泛覆盖性。其标注体系设计精细,不仅区分定义是否相同,更关键的是辨识差异的性质,特别是能否归因于概念或实体本身的理解发生了根本性变化,这有助于精准捕捉真实世界的知识演变。此外,数据集通过自举过程构建,使得最终的数据集合兼具了初始种子集的质量与后续扩展带来的语义多样性,尤其丰富了反映关键更新的少数类样本,为模型训练提供了更均衡和具有挑战性的数据分布。
使用方法
WikiTiDe数据集主要用于训练和评估模型在历时语境下感知知识变化的能力。研究人员可以将其应用于监督学习任务,训练分类器以自动判断一对带时间戳的定义之间差异的类型。经过在该数据集上微调的模型,能够被用于扫描维基百科等知识库,高效识别关于特定概念、事件或实体的核心内容更新,从而辅助语言模型的知识更新与缓解时间错位问题。此外,该数据集也可迁移至相关的词汇语义任务,例如经过适配后,可用于评估模型在词语上下文中的词义验证能力,展示了其在促进历时自然语言处理研究方面的实用价值与扩展潜力。
背景与挑战
背景概述
在自然语言处理领域,随着语言模型的广泛应用,模型难以灵活学习新信息的问题日益凸显,这引发了学术界对历时性语言处理的深入探索。WikiTiDe数据集由卡迪夫大学自然语言处理研究团队于2023年提出,其核心目标是通过从维基百科中提取带时间戳的定义对,构建一个能够追踪概念、事件或命名实体知识演变的基准资源。该数据集采用端到端的自动构建方法,结合自举算法逐步生成高质量标注数据,旨在训练模型识别语言和世界知识的关键更新,从而缓解语言模型因时间错位导致的知识滞后问题,为历时性自然语言处理研究提供了重要的数据支撑。
当前挑战
WikiTiDe数据集致力于解决历时性自然语言处理中知识更新的核心挑战,即如何准确识别概念或实体定义随时间发生的本质性变化,而非表面上的语义或风格差异。这一任务要求模型具备区分细微语义漂移与实质性知识更新的能力,对模型的时序理解与推理提出了较高要求。在构建过程中,研究团队面临数据质量控制的难题,包括如何从维基百科的动态编辑中筛选出反映真实世界变化的高质量定义对,以及如何通过弱监督方法确保标注的可靠性。此外,利用大型语言模型进行自动化标注时,需平衡标注效率与一致性,避免因模型偏差引入噪声数据,这进一步增加了数据集构建的复杂性。
常用场景
经典使用场景
在历时自然语言处理领域,WikiTiDe数据集通过从维基百科提取带时间戳的定义对,为模型训练提供了关键资源。其经典应用场景聚焦于训练语言模型识别概念、事件或命名实体在时间维度上的核心知识更新,例如检测人物职业变动、事件状态演变等语义变化。该数据集采用自举算法构建,确保了高质量标注,使得模型能够有效扫描动态知识资源,捕捉语言与世界的变迁轨迹。
解决学术问题
WikiTiDe数据集主要解决了语言模型因训练数据静态化而导致的时间错位问题,即模型难以适应语言和世界知识的动态更新。通过提供标注的定义对分类任务,该数据集支持模型学习区分语义细微变化与根本性知识更新,从而缓解了持续学习中的灾难性遗忘挑战。其意义在于为历时NLP研究提供了标准化基准,推动了时间感知模型的发展,增强了模型在知识密集型任务如闭卷问答中的时效性。
衍生相关工作
基于WikiTiDe数据集,研究者衍生出多项经典工作,包括将其应用于词义消歧和上下文词分类任务,如WiC-TSV目标意义验证任务。通过微调RoBERTa等模型,该数据集提升了模型在定义相似性判断上的性能,并启发了时间感知语言模型的进一步优化。相关研究还探索了利用自举方法增强模型鲁棒性,为动态知识更新检测提供了可扩展的框架,推动了历时NLP与词典学领域的交叉创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作