facebook/lama

Name: facebook/lama
Creator: facebook
Published: 2024-01-18 11:07:52
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/facebook/lama

下载链接

链接失效反馈

官方服务：

资源简介：

LAMA数据集用于分析和探测预训练语言模型中的事实和常识知识。数据集包含多个配置，如google_re、trex、conceptnet和squad，每个配置都有特定的数据字段和用途。数据集的语言为英语，且为单语种。数据集的创建目的是为了探测语言模型的理解能力，数据来源包括Google_RE、TRex、Conceptnet和Squad等。数据集包含一些清理工作，并添加了用于[MASK]标记的掩码句子和相关答案。预测[MASK]标记的准确性显示了语言模型对事实和常识信息的了解程度。此版本的数据集还包括否定句子以及掩码句子。某些配置还包括模板和否定模板字段，形式为“[X] some text [Y]”，其中[X]和[Y]是某些关系的主语和宾语槽。

The LAMA dataset is designed for analyzing and probing factual and commonsense knowledge within pre-trained language models. It comprises multiple configurations including Google_RE, TREx, ConceptNet, and SQuAD, each with specific data fields and use cases. The dataset is an English-only monolingual corpus. It was developed to evaluate the understanding capabilities of language models, with data sourced from platforms including Google_RE, TREx, ConceptNet, and SQuAD among others. Standard data cleaning operations have been performed on the dataset, and masked sentences paired with corresponding answers marked with the [MASK] token have been incorporated. The accuracy of predicting the [MASK] token serves as an indicator of the extent to which a language model has acquired factual and commonsense knowledge. This iteration of the dataset additionally includes negative sentences alongside masked sentences. Certain configurations also provide template and negative template fields formatted as "[X] some text [Y]", where [X] and [Y] represent the subject and object slots for specific relational pairs.

提供机构：

facebook

原始信息汇总

数据集概述

数据集名称： LAMA: LAnguage Model Analysis

数据集目的： 用于探测和分析预训练语言模型中包含的事实和常识知识。

数据集构成： 包含来自Google_RE、TRex（Wikidata子集）、Conceptnet和Squad的数据。

语言： 英语（en）

许可证： CC-BY-4.0

多语言性： 单语

数据集大小：

小于1K
1K到10K
10K到100K
1M到10M

任务类别：

文本检索
文本分类

任务ID：

事实检查检索
文本评分

数据集配置：

conceptnet
google_re
squad
trex

数据集结构

数据实例：

trex配置： 包含uuid、obj_uri、obj_label、sub_uri、sub_label、predicate_id等字段。
conceptnet配置： 包含uuid、sub、obj、pred等字段。
squad配置： 包含id、sub_label、obj_label等字段。
google_re配置： 包含uuid、pred、sub、obj、evidences、judgments等字段。

数据字段：

trex配置： uuid、obj_uri、obj_label、sub_uri、sub_label、predicate_id等。
conceptnet配置： uuid、sub、obj、pred、obj_label等。
squad配置： id、sub_label、obj_label等。
google_re配置： uuid、pred、sub、obj、evidences、judgments等。

数据分割： 无明确数据分割信息。

数据集创建

来源数据： 数据来源于多个已有的数据集，经过清理和调整用于探测目的。

注释过程： 包含人群注释、专家生成和机器生成。

注释者： 人群注释者和机器注释。

使用数据注意事项

社会影响： 旨在探测语言模型的理解能力。

偏见讨论： 数据来自人群注释，可能存在偏见。

其他已知限制： 数据字段的原生文档有限。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，探究预训练语言模型蕴含的知识边界成为研究热点。LAMA数据集的构建源于对模型知识探针的需求，其核心方法是从多个现有知识源中提取结构化三元组，并转化为掩码填充任务的形式。具体而言，该数据集整合了TRex、ConceptNet、SQuAD和Google_RE四个子集，通过自动化流程将实体关系三元组转换为自然语言句子，并将宾语位置替换为[MASK]标记，形成掩码句子。同时，部分配置还引入了否定句式模板，以增强探针的对比分析能力。数据清洗与标准化过程确保了不同来源数据的一致性，为模型知识评估提供了统一基准。

特点

LAMA数据集在知识探针任务中展现出鲜明的结构特征。其核心在于每个样本均包含一个掩码句子，其中宾语实体被[MASK]标记替代，从而将知识检索任务转化为语言模型的完形填空问题。数据集涵盖事实性知识与常识性知识，例如TRex侧重维基数据的事实三元组，而ConceptNet则包含日常概念关系。此外，数据集提供了丰富的元数据，如实体URI、标签、关系描述及模板句式，支持细粒度的分析。否定句式的引入允许研究者考察模型对错误陈述的辨别能力，进一步揭示了语言模型的推理局限。

使用方法

使用LAMA数据集时，研究者通常将其作为基准工具，评估预训练语言模型在无需微调情况下的事实与常识知识召回能力。典型流程是加载特定配置（如trex或conceptnet），提取掩码句子输入语言模型，并比较模型对[MASK]位置预测的词汇与真实宾语标签是否一致，从而计算准确率。数据集支持探针任务，例如分析不同模型架构或训练数据对知识存储的影响。此外，通过对比原始句子与否定句式的预测差异，可以探究模型对语义一致性的敏感度。该数据集可直接通过HuggingFace库加载，便于集成到现有评估框架中。

背景与挑战

背景概述

在自然语言处理领域，预训练语言模型的知识表征能力一直是研究焦点。LAMA（LAnguage Model Analysis）数据集由Facebook研究院于2019年推出，核心研究团队包括Fabio Petroni等学者。该数据集旨在系统性地探测和分析预训练语言模型中蕴含的事实性与常识性知识，通过构建掩码预测任务，评估模型对世界知识的掌握程度。其整合了TRex、ConceptNet、Google_RE和SQuAD等多个权威知识源，为语言模型的知识评估提供了标准化基准，显著推动了模型可解释性与知识探测研究的发展。

当前挑战

LAMA数据集所针对的核心挑战在于量化语言模型中的隐式知识表征，这涉及如何准确区分模型的语言模式记忆与真实知识理解。在构建过程中，数据集面临多重挑战：其一，知识源的异构性整合，需将结构化知识库与非结构化文本数据统一为掩码预测格式；其二，标注质量的保障，部分数据依赖众包或机器生成，可能引入噪声与偏差；其三，模板设计的局限性，固定句式可能无法全面反映语言模型在多样语境下的知识调用能力。这些挑战共同影响了探测任务的泛化性与可靠性。

常用场景

经典使用场景

在自然语言处理领域，LAMA数据集被广泛用于评估预训练语言模型对事实性知识和常识的理解能力。通过设计掩码句子，研究者能够系统性地探测模型在填充缺失实体时的表现，从而揭示模型内部的知识表征机制。这一经典应用场景为语言模型的性能分析提供了标准化基准，促进了模型透明度和可解释性的研究。

解决学术问题

该数据集有效解决了语言模型知识表征的量化评估难题，为探究预训练模型是否真正掌握结构化知识提供了实证基础。通过整合TRex、ConceptNet等多源知识库，LAMA构建了跨领域的探测任务，帮助学术界厘清语言模型在事实推理、常识理解方面的能力边界，推动了神经符号集成研究的发展。

衍生相关工作

基于LAMA的探测范式，学术界衍生出系列重要研究。Petroni等人后续提出的LAMA-UHN工作解决了数据集偏差问题，Zhong等人开发的LPAQA则通过自动模板生成扩展了探测维度。这些研究共同推动了知识探测方法论的演进，为后续的模型编辑、知识注入等技术奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集