five

wikidyk

收藏
Hugging Face2025-05-14 更新2025-05-15 收录
下载链接:
https://huggingface.co/datasets/YWZBrandon/wikidyk
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个问答类型的数据集,包含月份、年份、问题、答案、事实、案例ID、评估、链接、加粗实体和加粗实体页面等字段。数据集分为测试集,共有12290个示例,文件大小为178424042字节。
创建时间:
2025-05-14
原始信息汇总

数据集概述

基本信息

  • 数据集名称: wikidyk
  • 许可证: Apache-2.0
  • 任务类别: 问答(question-answering)
  • 下载大小: 95,883,537 字节
  • 数据集大小: 178,424,042 字节

数据集结构

特征

  • month: 字符串类型
  • year: 字符串类型
  • question: 字符串类型
  • answer: 字符串序列
  • fact: 字符串类型
  • case_id: 字符串类型
  • eval: 字符串类型
  • links: 字符串类型
  • bold_entity: 字符串类型
  • bold_entity_page: 字符串类型

数据划分

  • test:
    • 样本数量: 12,290
    • 数据大小: 178,424,042 字节

配置

  • 默认配置:
    • 数据文件路径: data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在知识注入研究领域,wikidyk数据集通过系统化流程构建而成。其基础源自维基百科的精选条目,采用自动化与人工校验相结合的方式提取关键事实信息。每一条数据均包含明确的时间标识与实体关联,通过多轮质量审核确保知识单元的准确性与一致性。数据采集过程特别注重上下文连贯性,使问答对能够反映真实的知识关联模式。
特点
该数据集展现出多维度的结构化特征,其核心字段构成完整的知识表述链条。每个样本包含问题、答案序列及对应的原始事实依据,同时标注了实体链接与评估标识。时间维度上精确到年月粒度,支持时序知识分析。特别设计的实体加粗机制为知识定位提供便利,而标准化的案例编号体系则保障了数据追溯性。
使用方法
作为专门用于知识记忆评估的基准数据集,研究者可将其应用于语言模型的知识注入能力测试。使用时需注意数据仅包含测试集划分,建议遵循原论文设计的评估协议。典型应用场景包括双向语言模型的知识检索效率对比、事实一致性验证等任务。数据加载可直接通过HuggingFace平台实现,配套代码库提供了完整的评估指标实现方案。
背景与挑战
背景概述
wikidyk数据集诞生于2024年,由研究团队在知识注入领域的前沿探索中构建。该数据集聚焦于现实世界知识的系统化评估,旨在衡量双向语言模型在知识记忆任务中的效能。其核心研究问题围绕如何通过结构化问答形式验证模型对时序性事实的掌握能力,为自然语言处理领域的知识增强方法提供了标准化基准。通过整合维基百科动态更新的条目与实体关联数据,该数据集推动了预训练语言模型在知识密集型应用中的可靠性研究。
当前挑战
wikidyk针对的领域挑战在于解决语言模型对动态演变知识的捕获与回溯难题,尤其需处理时间敏感型问答中答案的多版本冲突问题。构建过程中面临双重困难:一是从维基百科历史版本中精确提取时序对齐的事实与问答对,需克服数据稀疏性与时间维度噪声;二是确保实体链接与答案跨度的标注一致性,在百万级文本片段中维持知识单元的逻辑完整性。
常用场景
经典使用场景
在自然语言处理领域,wikidyk数据集专为评估知识记忆与检索能力而设计,其核心应用场景聚焦于问答系统的性能测试。通过提供基于维基百科事实的时间敏感性问题,该数据集能够有效衡量模型在真实世界知识注入任务中的表现,尤其适用于检验双向语言模型在复杂知识关联与时间维度推理方面的优越性。
实际应用
wikidyk的实际价值体现在智能助手的知识库构建与垂直领域问答系统中。例如在金融、医疗等需要高精度事实核查的场景中,该数据集支撑的模型能够快速定位时效性知识,辅助专业人员完成证据链追溯。其结构化标注体系还可用于构建企业级知识图谱的验证模块,提升商业智能系统的决策可靠性。
衍生相关工作
基于该数据集衍生的经典研究包括知识注入范式的系统性评估框架,以及面向长尾知识的增强训练方法。相关工作进一步拓展至多模态知识对齐领域,例如将文本事实与视觉证据相结合的多维度验证模型。这些研究不仅深化了对Transformer架构知识容量的理解,还催生了新一代动态知识维护系统的设计理念。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作