ConMeC

Name: ConMeC
Creator: 辛辛那提大学
Published: 2025-02-11 11:39:36
License: 暂无描述

arXiv2025-02-11 更新2025-02-12 收录

下载链接：

https://github.com/SaptGhosh/ConMeC

下载链接

链接失效反馈

官方服务：

资源简介：

ConMeC（普通名词隐喻语料库）是由辛辛那提大学创建的一个新的隐喻分辨率数据集，包含6000个从维基百科中提取的句子。每个句子都配有一个目标普通名词，并由人类标注者标注该普通名词在上下文中是否被隐喻使用。该数据集是迄今为止最大的专注于普通名词隐喻分辨率的数据集，旨在为隐喻分辨率任务提供基准，并评估NLP管道在理解隐含语言方面的能力。

ConMeC (Corpus of Common Noun Metaphors) is a novel metaphor resolution dataset developed by the University of Cincinnati. It contains 6,000 sentences extracted from Wikipedia, with each sentence paired with a target common noun. Human annotators have labeled whether each target common noun is used metaphorically in its contextual setting. This is the largest dataset dedicated to common noun metaphor resolution to date, and its core objectives are to provide a benchmark for the metaphor resolution task and evaluate the ability of NLP pipelines to understand implicit language.

提供机构：

辛辛那提大学

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

ConMeC数据集的构建主要采用了基于大规模语言模型的数据增强方法。研究者首先从Pedinotti和Lenci（2020）的数据集中提取了普通名词和相关的活动动词，然后利用Llama-3.1-8B模型生成替代词和动词，从而扩充了名词-动词组合。接着，研究者使用spaCy依存解析器从维基百科中提取包含这些名词和动词对且存在依存关系的句子。最后，研究者随机抽样了每个隐喻类别中的1000个句子，并由人工标注者进行标注，以确定目标名词是否在上下文中被隐喻使用。

使用方法

ConMeC数据集的使用方法包括以下步骤：首先，使用大型语言模型进行数据增强，以获取潜在的隐喻句子；其次，使用基于思维链的提示方法来检测句子中的隐喻；最后，使用自洽性和多数投票策略来提高模型性能。此外，研究者还使用监督的BERT模型在数据集上进行实验，并与LLMs模型进行比较。实验结果表明，LLMs在特定隐喻类别上可以达到与监督BERT模型相当的性能，但在需要细微语义理解的情况下仍存在挑战。

背景与挑战

背景概述

在自然语言处理（NLP）领域，隐喻的解析一直是研究的热点。然而，以往的研究主要集中在特定类型的实体上，如地名、公司名称等。本文介绍了一个名为ConMeC的新数据集，该数据集专注于常见名词的隐喻解析，旨在填补这一研究空白。ConMeC数据集由6,000个句子组成，每个句子都与一个目标常见名词配对，并由人类标注者标注，以指示该名词在该上下文中是否被隐喻地使用。该数据集的创建者是辛辛那提大学的Saptarshi Ghosh和Tianyu Jiang，他们通过从维基百科中提取句子并使用大型语言模型（LLMs）进行数据增强，构建了这一数据集。ConMeC数据集的创建对NLP领域具有重要意义，它为研究人员提供了一个用于评估和改进隐喻解析模型的新基准。

当前挑战

ConMeC数据集面临着一些挑战。首先，构建一个包含多样化隐喻用法的句子集合并非易事，因为隐喻在自然语言中相对罕见。其次，由于隐喻的语义复杂性，模型在理解隐喻时可能会遇到困难。此外，大型语言模型在预测隐喻时可能存在不一致性，导致模型性能下降。最后，ConMeC数据集目前只关注六种最常见的隐喻类型，这意味着模型在处理其他隐喻类型时可能会遇到困难。这些挑战为研究人员提供了进一步改进和扩展ConMeC数据集以及开发更强大隐喻解析模型的机会。

常用场景

经典使用场景

ConMeC数据集主要用于自然语言处理中的隐喻解析任务，特别是针对普通名词的隐喻解析。该数据集包含了6000个句子，每个句子都与一个目标普通名词配对，并由人类标注者标注该名词是否在上下文中被隐喻使用。这使得ConMeC成为研究隐喻解析的重要资源，特别是在涉及普通名词的情况下。

解决学术问题

ConMeC数据集解决了先前研究中主要关注实体名称的隐喻解析问题，特别是地名。ConMeC通过引入一个专注于普通名词隐喻解析的数据集，为自然语言处理中的隐喻解析任务提供了新的研究方向。该数据集有助于开发能够处理各种隐喻类型及其多样表现的鲁棒机器学习模型，并评估模型在自然语言中解析隐喻的真实能力。

实际应用

ConMeC数据集的实际应用场景包括信息抽取和命名实体识别等自然语言处理任务。通过理解隐喻，ConMeC可以帮助NLP系统更好地理解文本的隐含意义，从而提高信息抽取和命名实体识别的准确性。此外，ConMeC还可以用于开发能够理解隐含语言的人类-like NLP管道，从而改善人机交互体验。

数据集最近研究