five

MiQA (Metaphorical Inference Questions and Answers)

收藏
arXiv2022-10-15 更新2024-06-21 收录
下载链接:
https://github.com/googleresearch/language/tree/master/language/miqa
下载链接
链接失效反馈
官方服务:
资源简介:
MiQA是由谷歌研究院苏黎世团队创建的一个用于评估大型语言模型在处理常规隐喻推理能力的基准数据集。该数据集包含300个问题,这些问题结合了隐喻检测和常识推理,要求模型在未明确指出上下文是字面意义还是隐喻意义的情况下进行正确推理。数据集的构建基于概念隐喻理论(CMT),使用了一系列代表性的基本隐喻,并与字面陈述进行对比配对。MiQA的应用领域主要集中在测试和提升语言模型在处理隐喻和抽象概念推理的能力,旨在解决模型在理解复杂人类语言表达方面的挑战。

MiQA is a benchmark dataset developed by the Zurich team at Google Research for evaluating large language models’ capabilities in conventional metaphorical reasoning. This dataset comprises 300 questions that integrate metaphor detection and commonsense reasoning, demanding models to conduct accurate reasoning without explicit cues about whether the provided context is literal or metaphorical. The construction of MiQA is grounded in Conceptual Metaphor Theory (CMT), utilizing a set of representative basic metaphors and creating paired comparisons with literal statements. The primary applications of MiQA lie in testing and improving language models’ ability to handle metaphorical and abstract conceptual reasoning, with the goal of addressing the challenges that models encounter when comprehending complex human linguistic expressions.
提供机构:
谷歌研究院,苏黎世
创建时间:
2022-10-15
搜集汇总
数据集介绍
main_image_url
构建方式
MiQA(隐喻推理问答)数据集基于概念隐喻理论(CMT)构建,旨在评估大型语言模型在常规隐喻推理中的能力。数据集以Grady(1997)提出的100个基本隐喻为理论根基,这些隐喻在儿童发展早期出现、具有具身性,并构成复杂隐喻组合的基础。每个数据项由四个英文句子组成:一个字面前提(Lp)、一个包含常规隐喻的前提(Mp)、字面前提的蕴涵(Lc)以及隐喻前提的蕴涵(Mc)。这些句子被配对,使得对Mp的错误字面理解可能误导模型推断出Lc作为蕴涵。例如,错误推断“我明白你的意思”暗示“我的眼睛工作正常”。最终数据集包含150个这样的元组,并据此生成300个二选一问题,其中一半为“implies”问题(从隐喻前提选择正确蕴涵),另一半为“implied-by”问题(从字面结论选择正确前提),以平衡模型对字面或隐喻倾向的偏差。
特点
MiQA数据集的独特之处在于它将隐喻检测与常识推理融合为单一任务,要求模型在字面与隐喻语境之间做出精确选择,而非单纯识别隐喻。数据集采用对抗性设计,错误推断Mp→Lc作为陷阱,测试模型是否被字面解释迷惑。其理论基础确保了隐喻类别的平衡分布,避免语料库方法中的频率偏差。评估结果显示,小型模型(如PaLM-8b)表现接近随机水平(约50%),而大型模型(如PaLM-540b)在零样本下可达89.7%准确率,并通过少量示例提示接近人类水平(99.6%)。此外,生成式任务(开放式问答)进一步验证了模型能力,但需多轮提示才能逼近人类表现,揭示了模型在零样本情境下的显著差距。
使用方法
MiQA数据集主要用于评估大型语言模型的隐喻推理能力,可通过二选一任务或生成式任务使用。在二选一任务中,模型需从两个候选答案中选择最可能的蕴涵或前提,通过比较对数似然评分判定正确性。提示设计至关重要,需尝试多种模板以缓解敏感性,例如使用“Mp. Which of the following two statements could that imply? (1) Lc (2) Mc”格式,并交换选项顺序以消除位置偏差。生成式任务则要求模型对“Mp. Could that imply that Lc?”问题生成开放回答,由人工评分员标记为“正确”、“错误”或“模糊”。为提升性能,建议采用多轮提示(如5-shot),从正确示例中随机选取前缀。数据集公开于GitHub(https://github.com/google-research/language/tree/master/language/miqa),支持零样本、少样本及微调评估,尤其适合与自然语言推理模型(如DeBERTaV3)结合使用。
背景与挑战
背景概述
隐喻作为人类认知的核心机制,使抽象概念得以通过具体经验域进行结构化推理,这一理论在概念隐喻理论中得到了系统阐述。然而,主流自然语言处理研究长期将隐喻检测与常识推理视为孤立任务,缺乏对二者协同能力的评估。为填补这一空白,Iulia-Maria Comșa、Julian Martin Eisenschlos与Srini Narayanan于2022年在Google Research Zürich提出了MiQA(Metaphorical Inference Questions and Answers)基准数据集。该数据集基于Grady的100种基本隐喻本体,通过构建150组对照性前提与推论对,生成300道二选一推理问题,旨在检验大型语言模型在隐喻语境中区分字面与隐喻语域并进行正确推断的能力。MiQA的发布为评估语言模型的隐喻理解与常识推理融合能力提供了首个系统化测试平台,揭示了模型规模与推理性能之间的显著关联。
当前挑战
MiQA所面临的挑战主要体现在两个层面。在领域问题层面,核心挑战在于要求模型同时具备隐喻检测与常识推理能力,而非仅处理单一任务,这考验了模型对隐喻语境的深层理解与语域切换的精准性,尤其是面对字面与隐喻推论高度相似的对抗性样本时,模型需避免被误导。在数据集构建过程中,挑战源自设计上的平衡性要求:需确保隐喻类别分布均衡,避免模型仅依赖统计偏差;同时,人工构建的150组项目需严格遵循基本隐喻理论,保证每对前提与推论在语义上具有明确的字面与隐喻对照关系,并生成双向推理问题以避免模型偏向任一语域。此外,人类评估与模型性能间的差距表明,即使大型模型在多次提示下接近人类水平,零样本场景下的推理稳定性仍是亟待突破的瓶颈。
常用场景
经典使用场景
在自然语言处理领域,隐喻推理是衡量语言模型理解深层语义与常识关联能力的关键维度。MiQA数据集专为评估大语言模型在常规隐喻情境下的推理能力而设计,其经典使用场景在于构建二元选择任务,要求模型在给定隐喻性陈述后,从两个选项中甄别出正确的推理结果,同时排除字面意义上的误导性干扰。这一过程不仅考验模型对隐喻的识别,更对其在隐喻与字面语境间灵活切换的推理能力提出了严苛要求。
解决学术问题
MiQA数据集有效填补了隐喻检测与常识推理两大研究方向之间的空白,解决了长期以来学术界难以系统评估语言模型在隐喻推理中整合能力的问题。传统研究多将隐喻识别与常识推理割裂处理,而MiQA通过设计对抗性样本,迫使模型在字面与隐喻双重语境中做出精准抉择,从而揭示了模型规模与推理能力之间的非线性跃升现象。该数据集为理解大语言模型如何利用具身经验进行抽象思维提供了关键基准,推动了认知语言学与人工智能的交叉探索。
衍生相关工作
MiQA数据集的提出催生了一系列后续研究工作,其中最具代表性的是对隐喻推理中模型规模效应的深入分析,以及生成式任务中多轮提示策略的优化。受其启发,研究者进一步探索了非规约隐喻与复杂组合隐喻的推理挑战,并尝试将概念隐喻理论融入更大规模的基准构建中。此外,基于MiQA的对抗性设计思路,衍生出多项关于模型在字面与隐喻语境间鲁棒性评估的工作,这些成果共同丰富了隐喻计算研究的理论框架与实践方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作