KELM-corpus

github2024-05-10 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/KELM-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个部分：TEKGEN（文本从KG生成）训练语料库和生成的合成KELM（知识增强语言模型预训练）语料库。TEKGEN是与Wikidata KG对齐的维基百科文本，用于训练数据到文本生成模型。KELM是一个合成语料库，包含整个Wikidata KG作为自然文本句子，用于语言模型预训练，以整合知识图谱与自然文本。

This dataset comprises two components: the TEKGEN (Text from KG Generation) training corpus and the synthetically generated KELM (Knowledge-Enhanced Language Model Pretraining) corpus. TEKGEN consists of Wikipedia texts aligned with the Wikidata KG, utilized for training data-to-text generation models. KELM is a synthetic corpus that encompasses the entire Wikidata KG as natural language sentences, designed for language model pretraining to integrate knowledge graphs with natural text.

创建时间：

2020-10-24

原始信息汇总

数据集概述

本数据集包含两个主要部分：

1. TEKGEN训练语料库

来源：Wikipedia文本与Wikidata知识图谱对齐的语料库。
用途：用于训练数据到文本生成模型。
特点：通过远监督生成，不适用于黄金标准评估。
文件组成：
- 训练集：https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021/quadruples-train.tsv
- 验证集：https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021/quadruples-validation.tsv
- 测试集：https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021/quadruples-test.tsv
数据结构：每行一个示例，包含三个字段：
- triples：三元组列表，如(主体, 关系, 客体)。
- serialized triples：串联的三元组，用于T5模型的输入。
- sentence：与这些三元组对齐的Wikipedia句子。

2. KELM语料库

类型：合成语料库。
内容：将整个Wikidata知识图谱转换为自然文本句子。
规模：约1500万条合成句子。
生成方式：基于TEKGEN数据，使用T5模型进行微调并加入额外组件生成。
用途：作为语言模型预训练的附加数据，以整合知识图谱与自然文本。
文件：https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021/kelm_generated_corpus.jsonl
数据结构：每行一个示例，包含三个字段：
- triples：三元组列表，如(主体, 关系, 客体)。
- serialized triples：串联的三元组，用于T5模型的输入。
- gen_sentence：为三元组生成的自然语言句子。

实体信息

位置：https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021/entities.jsonl
内容：实体的名称、别名和Wikidata ID。

许可证

类型：CC BY-SA 2.0
链接：CC BY-SA 2.0 license

搜集汇总

数据集介绍

构建方式

KELM-corpus数据集的构建基于知识图谱与自然语言文本的深度融合，分为两个主要部分：TEKGEN训练语料库和KELM合成语料库。TEKGEN语料库通过远监督方法生成，将维基百科文本与Wikidata知识图谱对齐，包含训练、验证和测试三部分，每部分均以JSON格式存储，包含三元组、序列化三元组及对应的维基百科句子。KELM语料库则通过在TEKGEN基础上微调的T5模型生成，将整个Wikidata知识图谱转化为自然语言句子，形成约1500万条合成句子，每条记录包含三元组、序列化三元组及生成的自然语言句子。

特点

KELM-corpus数据集的显著特点在于其知识增强的特性，通过将知识图谱与自然语言文本无缝结合，为语言模型的预训练提供了丰富的知识背景。TEKGEN语料库通过对齐维基百科与Wikidata，确保了数据的知识准确性，尽管其生成方式为远监督，不适用于黄金标准评估。KELM语料库则通过T5模型的生成能力，将知识图谱转化为自然语言，极大地扩展了数据规模，且生成的句子具有较高的自然性和连贯性，尽管有0.1%的记录缺失三元组信息。

使用方法

KELM-corpus数据集可广泛应用于知识增强语言模型的预训练，尤其适用于需要结合知识图谱信息的自然语言处理任务。用户可通过访问提供的URL下载TEKGEN和KELM语料库，分别用于训练数据到文本生成模型和语言模型的预训练。使用时，用户需注意TEKGEN语料库的远监督生成特性，避免将其作为评估的黄金标准。对于KELM语料库，用户应处理其中0.1%的缺失三元组记录，并可根据需要进一步微调T5模型以适应特定任务。

背景与挑战

背景概述

KELM-corpus数据集由Oshin Agarwal、Heming Ge、Siamak Shakeri和Rami Al-Rfou等研究人员于2021年创建，旨在通过知识图谱（KG）与自然语言文本的结合，提升语言模型的预训练效果。该数据集的核心研究问题是如何有效地将知识图谱中的结构化信息转化为自然语言文本，从而增强语言模型对知识的理解和表达能力。KELM-corpus由两部分组成：TEKGEN训练语料库和KELM合成语料库。TEKGEN语料库通过远监督方法将维基百科文本与Wikidata知识图谱对齐，而KELM语料库则是基于TEKGEN训练的T5模型生成的合成语料库，包含约1500万条自然语言句子。该数据集的发布对知识增强语言模型的预训练领域具有重要影响，为研究人员提供了一个全新的资源，用于探索知识图谱与自然语言的深度融合。

当前挑战

KELM-corpus数据集在构建过程中面临多个挑战。首先，如何通过远监督方法将维基百科文本与Wikidata知识图谱精确对齐，确保生成的语料库具有高质量的结构化信息，是一个技术难题。其次，生成合成语料库时，如何确保T5模型能够准确地将知识图谱中的三元组转化为自然语言句子，同时保持语义的连贯性和准确性，也是一个重要的挑战。此外，数据集中约有0.1%的样本缺失了“triples”字段，这为后续的研究和应用带来了数据完整性的问题。最后，如何在大规模数据集上高效地进行预训练，并确保模型能够充分利用知识图谱中的信息，也是该数据集面临的一个重要挑战。

常用场景

经典使用场景

KELM-corpus数据集的经典使用场景主要体现在知识增强语言模型的预训练过程中。该数据集通过将知识图谱（如Wikidata）中的结构化信息转化为自然语言句子，为语言模型提供了丰富的背景知识。这种知识增强的方式使得模型在处理文本时能够更好地理解实体间的关系，从而提升其在问答、文本生成等任务中的表现。

衍生相关工作

基于KELM-corpus数据集，研究者们开发了多种知识增强的语言模型，如T5模型的变体，这些模型在多个自然语言处理任务中表现出色。此外，该数据集还启发了许多关于知识图谱与自然语言处理融合的研究，推动了知识驱动的文本生成和理解技术的发展。这些工作不仅丰富了自然语言处理的理论体系，还为实际应用提供了强有力的技术支持。

数据集最近研究