janck/bigscience-lama

Name: janck/bigscience-lama
Creator: janck
Published: 2022-10-21 08:16:23
License: 暂无描述

Hugging Face2022-10-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/janck/bigscience-lama

下载链接

链接失效反馈

官方服务：

资源简介：

LAMA数据集用于探测和分析预训练语言模型中包含的事实和常识知识。该数据集包含Wikidata三元组的一个子集（TRex），并提供了一个带有[MASK]标记相关答案的掩码句子，用于评估语言模型对事实和常识的了解程度。此外，数据集还包含问题而非模板，以便探测非掩码模型。数据集语言为英语，遵循CC-BY-4.0许可。

The LAMA dataset is designed to probe and analyze the factual and commonsense knowledge encoded in pre-trained language models. It includes a subset of Wikidata triples (TRex) and provides masked sentences with [MASK] tokens paired with their corresponding correct answers, which are used to evaluate the degree of factual and commonsense knowledge that language models have acquired. Additionally, the dataset contains questions instead of templates, enabling the probing of non-masked language models. The dataset is in English and is released under the CC-BY-4.0 license.

提供机构：

janck

原始信息汇总

数据集概述

数据集名称: LAMA: LAnguage Model Analysis - BigScience version
数据集别名: LAMA
数据集简介: 该数据集用于探测和分析预训练语言模型中包含的事实和常识知识。数据集仅包含TRex（Wikidata三元组的子集），并进行了清理和添加了掩码句子及其相关答案。
语言: 英语 (en)
许可证: Creative Commons Attribution 4.0 International (cc-by-4.0)
多语言性: 单语

数据集结构

数据实例: 数据集中的每个实例包含UUID、主语标签、谓词ID、宾语标签、模板、类型和问题等字段。
数据字段:
- uuid: 唯一标识符
- sub_label: 主语标签
- predicate_id: 谓词ID
- obj_label: 宾语标签
- template: 模板
- type: 类型
- question: 问题
数据分割: 无数据分割

数据集创建

采集理由: 为了探测语言模型的理解能力。
源数据: 数据集从多个其他数据集收集并进行了清理，用于探测目的。
注释过程: 包含人类注释和机器注释。

使用数据集的考虑

社会影响: 旨在探测语言模型的理解能力。
偏见讨论: 由于数据来自人类注释，可能存在偏见。
其他已知限制: 数据字段的原生文档有限。

附加信息

数据集维护者: LAMA的作者及原始数据集的作者。
许可证信息: 遵循Creative Commons Attribution-Noncommercial 4.0 International License。
引用信息:
- @inproceedings{petroni2019language, title={Language Models as Knowledge Bases?}, author={F. Petroni, T. Rockt{"{a}}schel, A. H. Miller, P. Lewis, A. Bakhtin, Y. Wu and S. Riedel}, booktitle={In: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2019}, year={2019} }
- @inproceedings{petroni2020how, title={How Context Affects Language Models Factual Predictions}, author={Fabio Petroni and Patrick Lewis and Aleksandra Piktus and Tim Rockt{"a}schel and Yuxiang Wu and Alexander H. Miller and Sebastian Riedel}, booktitle={Automated Knowledge Base Construction}, year={2020}, url={https://openreview.net/forum?id=025X0zPfn} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，探究预训练语言模型的知识表征能力已成为研究热点。LAMA数据集的构建源于对模型内部知识结构的系统性探测需求，其核心数据源自维基数据三元组的子集TRex。通过自动化流程，原始三元组被转化为包含掩码标记的句子模板，其中对象槽位被替换为[MASK]标记，同时辅以问题形式的表述，以适配非掩码模型的评估。这一过程融合了机器生成与人工标注的双重机制，确保了数据在知识覆盖与语言规范性之间的平衡。

特点

作为语言模型分析的重要工具，LAMA数据集凸显出鲜明的设计特征。其以英文单语形式呈现，专注于事实性与常识性知识的探测，通过掩码预测任务直观反映模型的知识掌握程度。数据集不仅提供传统模板句子，还创新性地引入问题表述，扩展了评估范式的适用范围。结构上，每个实例包含实体标签、谓词标识及多样化表述，形成了层次清晰的知识单元，为模型理解能力的多维度剖析奠定了坚实基础。

使用方法

在模型评估与知识探测研究中，LAMA数据集提供了灵活的应用路径。研究者可直接利用掩码句子模板，通过模型对[MASK]标记的预测准确率量化其事实知识存储水平；同时，问题形式的数据支持生成式模型的开放式探测。由于未预设标准划分，用户可根据实验需求自定义分割策略。使用中需注意数据可能包含知名人物姓名等潜在敏感信息，并考量原始标注中可能存在的人类偏见，以保障分析结论的稳健性与公正性。

背景与挑战

背景概述

LAMA（LAnguage Model Analysis）数据集由Facebook研究团队于2019年创建，旨在系统性地探测和分析预训练语言模型中蕴含的事实性与常识性知识。该数据集的核心研究问题聚焦于评估语言模型是否能够作为知识库的替代品，从而揭示模型在理解世界知识方面的内在能力。通过构建基于维基数据三元组的TRex子集，并设计掩码预测任务，LAMA为自然语言处理领域提供了一种新颖的评估范式，显著推动了语言模型可解释性研究的发展，对模型知识表征的深入探索产生了深远影响。

当前挑战

LAMA数据集所解决的领域问题在于评估语言模型的事实与常识知识掌握程度，其核心挑战在于如何设计精准的探测任务以区分模型真正的知识理解与表面模式匹配。构建过程中的挑战涉及多源数据的整合与清洗，需从维基数据等异构知识库中提取高质量三元组，并转化为自然语言模板或问题形式，同时确保掩码位置与答案的语义一致性。此外，数据标注依赖机器与人工的混合流程，可能引入标注偏差，且原始数据字段的文档有限，增加了数据使用的复杂性。

常用场景

经典使用场景

在自然语言处理领域，LAMA数据集被广泛用于探究预训练语言模型内部蕴含的事实性与常识性知识。通过设计掩码填充任务，研究者能够系统评估模型在无需额外训练的情况下，对世界知识的掌握程度。这一经典场景为模型的知识表征能力提供了标准化测试基准，推动了语言理解研究的深入发展。

衍生相关工作

基于LAMA数据集衍生的经典研究包括知识探测框架的系列改进工作。后续研究通过引入多跳推理模板扩展了原始数据集的评估维度，开发出LAMA-UHN等去偏差版本。这些工作不仅完善了语言模型评估体系，更催生了知识增强型预训练技术的新方向，形成了持续演进的研究脉络。

数据集最近研究