five

Metaphor Understanding Challenge Dataset (MUNCH)

收藏
arXiv2024-03-18 更新2024-06-21 收录
下载链接:
https://github.com/xiaoyuisrain/metaphor-understanding-challenge
下载链接
链接失效反馈
官方服务:
资源简介:
MUNCH数据集由阿姆斯特丹大学创建,旨在评估大型语言模型(LLMs)对隐喻理解的能力。该数据集包含超过10,000个包含隐喻使用的句子的同义改写,以及1,500个包含不恰当同义改写的实例。这些不恰当的同义改写被精心挑选,以作为控制条件,确定模型是否确实进行了完整的隐喻解释,还是仅仅依赖于词汇相似性。所有的恰当和不恰当的同义改写都经过了人工标注。隐喻句子覆盖了4种不同体裁(学术、新闻、小说和对话)的自然隐喻使用,并展示了不同程度的新颖性。该数据集的应用领域包括隐喻理解、语言模型评估和自然语言处理任务,旨在解决隐喻理解的挑战和提高语言模型的性能。

The MUNCH dataset was created by the University of Amsterdam to evaluate the metaphor comprehension capabilities of large language models (LLMs). It contains over 10,000 paraphrases of sentences containing metaphorical usage, as well as 1,500 instances of inappropriate paraphrases. These carefully selected inappropriate paraphrases serve as control conditions to determine whether models truly perform complete metaphorical interpretation, or merely rely on lexical similarity. All appropriate and inappropriate paraphrases have been manually annotated. The metaphorical sentences cover natural metaphorical uses across four distinct genres: academic, journalistic, fictional, and conversational, and exhibit varying degrees of novelty. The application areas of this dataset include metaphor comprehension, language model evaluation, and natural language processing tasks, aiming to address the challenges of metaphor comprehension and improve the performance of language models.
提供机构:
阿姆斯特丹大学,荷兰
创建时间:
2024-03-18
搜集汇总
数据集介绍
main_image_url
构建方式
在隐喻理解研究领域,构建高质量的数据集是评估大语言模型认知能力的关键。MUNCH数据集的构建采用了系统化的多阶段流程:首先从阿姆斯特丹自由大学隐喻语料库中筛选出包含间接隐喻的句子,并依据新颖性评分排除高度常规化的隐喻实例。随后通过众包任务收集合适的释义,采用填空形式邀请母语者提供单词语义替换,并基于多数投票和专家知识验证确定最佳释义。同时,团队利用WordNet从隐喻词的基本义项中精心选取不恰当的释义,形成源域导向的对照样本,最终构建了包含逾万条释义和千余条三元组的结构化数据集。
使用方法
在自然语言处理研究中,MUNCH数据集主要支持两种评估范式。释义判断任务要求模型从候选词中选出能正确替换句中隐喻词的选项,该任务可进一步分为词级判断和句级判断两种形式,并可选择是否在提示中明确标注隐喻信息。释义生成任务则要求模型主动生成合适的单词语义替换,通过比较模型输出与人工标注的匹配度来评估其生成能力。研究显示,当前大语言模型在这两项任务上均面临挑战,特别是在区分源域与目标域释义时表现欠佳。该数据集还可用于分析文体、词性和隐喻新颖性等因素对模型性能的影响,为改进模型的隐喻理解能力提供诊断依据。
背景与挑战
背景概述
隐喻理解挑战数据集(MUNCH)由阿姆斯特丹大学与布里斯托大学的研究团队于2024年联合构建,旨在系统评估大语言模型对隐喻性语言的深层理解能力。该数据集基于概念隐喻理论框架,从VU阿姆斯特丹隐喻语料库中精选了涵盖学术、新闻、小说与会话四种文体的隐喻实例,并提供了超过一万条人工标注的恰当释义与一千五百条不恰当释义。其核心研究问题聚焦于探索模型是否能够通过跨域映射实现隐喻的完整解读,而非依赖词汇表层相似性进行浅层推理。MUNCH的发布为自然语言处理领域提供了首个大规模、多文体的隐喻释义评估基准,显著推动了认知语言学与计算语言学的交叉研究。
当前挑战
在领域问题层面,MUNCH旨在解决大语言模型对隐喻性语言的深度理解挑战,尤其是模型在区分隐喻源域与目标域时易受词汇相似性干扰的缺陷。构建过程中的挑战包括:首先,需从海量语料中筛选出适合单词语义替换的间接隐喻实例,并平衡隐喻的新颖性与常规性分布;其次,通过众包与专家双重标注确保释义的准确性与一致性,同时设计不恰当释义以精准反映源域干扰效应;最后,需克服多文体语料中隐喻表达的复杂性与文化特异性带来的标注歧义,确保数据集的可靠性与泛化能力。
常用场景
经典使用场景
在自然语言处理领域,隐喻理解被视为衡量语言模型深层认知能力的关键指标。MUNCH数据集通过提供超过一万条隐喻句子的恰当释义及一千五百条不恰当释义,构建了一个系统的评估框架。该数据集最经典的使用场景在于评估大型语言模型对隐喻性语言的解释能力,特别是通过词汇替换任务来检验模型是否能够跨越语义域进行推理,而非依赖浅层的词汇相似性。研究者利用该数据集设计了两项核心任务:释义判断与释义生成,旨在全面考察模型对隐喻的深层理解和生成能力。
解决学术问题
MUNCH数据集主要解决了隐喻理解中的若干核心学术问题,包括如何区分隐喻的源域与目标域映射,以及如何避免模型仅基于词汇表面相似性进行浅层处理。该数据集通过精心设计的不恰当释义,揭示了语言模型在理解新颖隐喻和跨域推理方面的局限性。其意义在于为隐喻处理研究提供了大规模、高质量的人工标注资源,推动了计算语言学对隐喻认知机制的深入探索,并为改进语言模型的推理能力指明了方向。
实际应用
在实际应用层面,MUNCH数据集能够显著提升自然语言处理系统在多种下游任务中的表现。例如,在机器翻译中,该数据集有助于模型更准确地处理富有比喻性的文本,避免产生歧义或错误的译文。在情感分析、意见挖掘和幽默检测等任务中,增强的隐喻理解能力可以使系统更好地捕捉文本中的隐含意义和情感色彩。此外,该数据集还可用于教育技术领域,辅助开发能够解释和生成隐喻性语言的教学工具。
数据集最近研究
最新研究方向
在自然语言处理领域,隐喻理解作为衡量大语言模型认知能力的关键维度,正逐渐成为研究焦点。MUNCH数据集的推出,为探索模型在跨域映射和概念推理方面的表现提供了精细化的评估工具。当前前沿研究聚焦于如何通过提示工程和微调策略,提升模型对新颖隐喻和不同文体中隐喻的解析能力,同时深入分析模型混淆源域与目标域的内在机制。这一方向不仅关联到模型在情感分析、偏见检测等下游任务中的实际应用效果,也为构建更具人类类比推理能力的下一代语言模型奠定了理论基础。
相关研究论文
  • 1
    Metaphor Understanding Challenge Dataset for LLMs阿姆斯特丹大学,荷兰 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作