MyriadLAMA
收藏arXiv2024-06-18 更新2024-06-20 收录
下载链接:
https://anonymous.4open.science/r/belief-CC8A
下载链接
链接失效反馈官方服务:
资源简介:
MyriadLAMA是由东京大学工业科学研究所开发的多提示事实探测数据集,旨在从多个角度评估预训练语言模型(PLMs)的事实理解能力。该数据集通过半自动方式扩展了现有的LAMA-UHN数据集,增加了大量的关系模板和实体表达,以提高数据集的多样性和质量。MyriadLAMA包含21,140,500条衍生三元组,通过结合多种半自动生成的关系模板和实体别名表达,显著增加了数据集的规模和复杂性。此数据集的应用领域主要集中在评估和改进语言模型在处理事实知识任务中的准确性、一致性和可靠性,从而推动语言模型在实际应用中的性能提升。
MyriadLAMA is a multi-prompt fact probing dataset developed by the Institute of Industrial Science, The University of Tokyo. It is designed to evaluate the factual understanding capabilities of pre-trained language models (PLMs) from multiple perspectives. This dataset extends the existing LAMA-UHN dataset through a semi-automatic pipeline, adding a substantial number of relational templates and entity expressions to improve the dataset's diversity and quality. MyriadLAMA contains 21,140,500 derived triples, which notably increases the scale and complexity of the dataset by integrating multiple semi-automatically generated relational templates and entity alias expressions. The primary application domains of this dataset center on evaluating and enhancing the accuracy, consistency, and reliability of language models in factual knowledge processing tasks, thereby driving performance improvements of language models in real-world deployments.
提供机构:
东京大学工业科学研究所
创建时间:
2024-06-18
搜集汇总
数据集介绍

构建方式
MyriadLAMA数据集的构建采用了半自动化的方法,扩展了现有的单提示探测数据集LAMA-UHN。通过为每个事实提供多个关系模板和多样化的实体表达,MyriadLAMA生成了大量的提示。具体而言,首先从T-REx知识库中挖掘新的对象,扩展了LAMA-UHN中的知识三元组。接着,利用Wikidata中的实体别名,进一步扩展了实体的表达。此外,通过手动生成和GPT-4自动生成的模板,MyriadLAMA为每个关系提供了多达100个模板,确保了提示的多样性和质量。
特点
MyriadLAMA数据集的主要特点在于其提示的多样性和数量。每个事实都配备了多个提示,涵盖了不同的关系模板和实体表达。这种多样性使得评估语言模型在事实理解中的鲁棒性和一致性成为可能。此外,MyriadLAMA还通过扩展实体表达,捕捉了那些在LAMA-UHN中由于严格实体表达限制而被忽略的事实。数据集的质量通过人工审核和过滤得到了保证,确保了提示的准确性和自然性。
使用方法
MyriadLAMA数据集主要用于评估预训练语言模型(PLMs)在事实知识理解中的能力。通过使用BELIEF和BELIEF-ICL框架,研究者可以从多个角度评估模型的准确性、一致性和可靠性。具体而言,研究者可以通过随机选择提示来评估模型的平均准确性和波动性,或者通过比较不同提示下的预测结果来评估模型的一致性。此外,MyriadLAMA还可以用于研究不同预训练策略、模型大小和训练数据对模型事实理解能力的影响。
背景与挑战
背景概述
MyriadLAMA数据集由东京大学的研究团队于2024年创建,旨在解决大型语言模型(LLMs)在处理事实知识时的局限性。该数据集的核心研究问题是通过多提示(multi-prompt)框架BELIEF和BELIEF-ICL,评估预训练语言模型(PLMs)在事实知识理解中的准确性、一致性和可靠性。MyriadLAMA通过半自动化的方式扩展了现有的LAMA-UHN数据集,生成了大量多样化的提示,以消除语言表达对模型评估结果的特定影响。该数据集的发布为LLMs在知识密集型任务中的表现提供了更为全面和可靠的评估工具,推动了语言模型在事实知识理解领域的研究进展。
当前挑战
MyriadLAMA数据集在构建和应用过程中面临多重挑战。首先,评估LLMs的事实知识理解能力时,传统的单提示数据集往往无法全面反映模型的真实能力,尤其是在面对多样化提示时的鲁棒性和预测一致性。其次,构建MyriadLAMA时,研究人员需要通过半自动化的方式生成大量高质量的提示,既要保证提示的多样性,又要确保其语义准确性,这一过程耗时且复杂。此外,由于数据集中提示数量庞大,评估成本较高,如何从中提取出高效且具有代表性的子集也是一个亟待解决的问题。这些挑战不仅影响了数据集的构建效率,也对后续的模型评估提出了更高的要求。
常用场景
经典使用场景
MyriadLAMA数据集主要用于评估预训练语言模型(PLMs)在事实知识理解方面的能力。通过提供多样化的提示模板,该数据集能够全面评估模型在准确性、一致性和可靠性等方面的表现。经典使用场景包括对BERT、Llama2等模型的广泛测试,以揭示模型在事实知识获取和理解上的差异。
实际应用
在实际应用中,MyriadLAMA可用于评估和优化语言模型在知识密集型任务中的表现,如问答系统、知识库构建和信息检索等。通过多样化的提示模板,模型能够在不同语境下保持一致的准确性,从而提高其在现实世界任务中的可靠性。此外,该数据集还可用于研究模型在不同语言表达下的知识理解能力,为多语言模型的开发提供支持。
衍生相关工作
MyriadLAMA的推出催生了一系列相关研究工作,特别是在多提示模板下的知识探测领域。基于该数据集,研究者们开发了BELIEF和BELIEF-ICL框架,用于评估编码器和解码器模型的性能。此外,该数据集还启发了对模型鲁棒性、提示偏差和知识共享率的研究,推动了预训练语言模型在事实知识理解方面的进一步发展。
以上内容由遇见数据集搜集并总结生成



