KILT
收藏arXiv2021-05-27 更新2024-06-21 收录
下载链接:
https://github.com/facebookresearch/KILT
下载链接
链接失效反馈官方服务:
资源简介:
KILT数据集是由Facebook AI Research创建的,旨在为知识密集型语言任务提供一个统一的基准。该数据集包含约320万条实例,所有数据均基于2019年8月的Wikipedia快照,确保了数据的一致性和可比性。KILT涵盖了五个不同的任务领域,包括事实检查、开放领域问答、槽填充、实体链接和对话系统。数据集的设计允许研究者开发和评估能够访问特定知识源的模型,特别是在大型文本资源中。此外,KILT还提供了多种评估指标和工具,以支持对模型性能的全面评估,特别是在模型提供输出证明的能力方面。
The KILT dataset was created by Facebook AI Research to provide a unified benchmark for knowledge-intensive language tasks. It contains approximately 3.2 million instances, all based on the August 2019 Wikipedia dump to ensure data consistency and comparability. KILT covers five distinct task domains, including fact checking, open-domain question answering, slot filling, entity linking, and dialogue systems. The design of KILT enables researchers to develop and evaluate models that can access specific knowledge sources, particularly from large-scale textual resources. Additionally, KILT provides a range of evaluation metrics and tools to support comprehensive assessment of model performance, especially regarding the model's ability to furnish evidence for its outputs.
提供机构:
Facebook AI Research
创建时间:
2020-09-04
搜集汇总
数据集介绍

构建方式
在知识密集型语言任务领域,构建统一且可比较的基准数据集面临诸多挑战。KILT数据集通过将多个现有数据集映射至统一的维基百科快照,实现了知识源的标准化。具体而言,其构建过程首先选取2019年8月1日的维基百科快照作为唯一知识源,涵盖约590万篇文章。随后,对涵盖事实核查、开放域问答、槽填充、实体链接和对话五大任务的11个数据集进行系统化映射,通过URL重定向和BLEU分数匹配策略,将原始数据中的证据文本对齐至统一知识源中的对应段落。为确保评估质量,开发集和测试集中BLEU分数低于0.5的实例被剔除,平均过滤比例约为18%。这一严谨的构建方法有效降低了工程开销,并为模型的知识表示研究提供了稳定基础。
使用方法
KILT数据集旨在推动能够依据特定知识进行推理的通用模型研究。研究人员可利用其提供的统一知识源和标准化任务接口,开发并评估各类知识密集型语言处理系统。典型的使用流程包括:首先加载KILT知识源(维基百科快照的JSON格式表示);随后,针对特定任务加载相应的训练、开发和测试数据集,这些数据集已通过映射算法与知识源对齐。模型需根据输入文本生成输出,并可选择性地检索并提供支持该输出的出处证据。评估时,除使用各任务传统指标(如准确率、精确匹配、ROUGE-L等)衡量下游性能外,还可通过R-precision和Recall@k等指标专门评估检索质量,或使用KILT分数综合考察模型输出与证据提供的联合能力。数据集代码库提供了检索、读取等基础组件,便于快速构建实验基线。
背景与挑战
背景概述
在自然语言处理领域,知识密集型任务如开放域问答、事实核查和实体链接等,长期以来依赖大规模外部知识源。然而,现有数据集往往采用异构的知识源与格式,导致模型泛化与比较研究面临显著障碍。为应对这一挑战,Facebook AI Research等机构于2021年联合推出了KILT基准,其核心创新在于将五大类共十一个知识密集型任务统一至同一维基百科快照,并构建标准化接口。该数据集通过约590万篇维基百科文章支撑超过320万个实例,旨在推动任务无关的记忆架构与可解释模型的发展,为知识密集型语言处理研究提供了关键基础设施。
当前挑战
KILT数据集致力于解决知识密集型语言任务中的两大核心挑战:一是模型需在庞大知识源中精准定位并利用特定信息以完成多样任务,如开放域问答中的多跳推理与事实核查中的证据检索;二是数据构建过程中面临的知识源对齐难题,包括将不同时间戳的维基百科快照映射至统一版本时,因页面增删改导致的证据跨度匹配问题,以及通过自动化与人工标注结合确保知识覆盖的完整性与可靠性。这些挑战共同凸显了开发兼具强检索能力与可解释性的通用模型的迫切性。
常用场景
经典使用场景
在知识密集型自然语言处理研究中,KILT数据集常被用作评估模型在统一知识源上进行多任务学习的基准。其经典使用场景涵盖开放域问答、事实核查、实体链接、槽填充和知识对话五大任务,研究者通过该数据集检验模型能否基于同一份维基百科快照,灵活检索并利用外部知识来生成准确答案或验证声明。这种设计促进了跨任务的知识表示与记忆架构的通用性探索,为开发无需为每个任务单独索引知识源的统一模型提供了标准化测试平台。
解决学术问题
KILT数据集主要解决了知识密集型NLP任务中知识源分散、评估标准不一的学术难题。通过将多个任务对齐到同一维基百科快照,它消除了因使用不同知识版本或格式带来的比较障碍,使研究者能专注于模型架构与知识表示方法的创新。该数据集推动了任务无关的记忆机制研究,并引入了可追溯性评估指标,要求模型不仅输出正确结果,还需提供支撑证据,从而促进可解释性人工智能的发展。
实际应用
在实际应用层面,KILT数据集为构建需要深度知识支撑的智能系统提供了关键训练与评估资源。例如,在开放域问答系统中,模型可借助KILT学习从海量文本中精准检索答案;在事实核查平台,系统能依据维基百科证据自动验证网络声明的真伪;而在知识对话机器人开发中,该数据集帮助模型生成信息丰富且依据可靠的回复。这些应用显著提升了智能助手、教育工具和内容审核等场景的可靠性与实用性。
数据集最近研究
最新研究方向
在知识密集型自然语言处理领域,KILT数据集作为统一基准,推动了面向多任务的通用知识检索与生成模型的发展。当前研究聚焦于构建任务无关的记忆架构,探索稠密检索与序列到序列模型的深度融合,如RAG框架所示范的检索增强生成范式。前沿工作致力于提升模型在事实核查、开放域问答等任务中提供可追溯证据的能力,通过联合优化检索器与生成器,增强知识利用的透明性与准确性。同时,研究关注跨任务知识表示的泛化性,利用统一维基百科快照减少工程开销,加速面向复杂知识需求的对话与推理系统的创新。
相关研究论文
- 1KILT: a Benchmark for Knowledge Intensive Language TasksFacebook AI Research · 2021年
以上内容由遇见数据集搜集并总结生成



