Medical Metaphors Corpus (MCC)
收藏arXiv2025-08-11 更新2025-08-13 收录
下载链接:
https://anonymous.4open.science/r/medical-metaphors-corpus-86B7/README.md
下载链接
链接失效反馈官方服务:
资源简介:
MCC数据集是一个包含792个科学概念隐喻的全面数据集,涵盖了医学和生物学领域。该数据集从同行评审的文献、新闻媒体、社交媒体讨论和众包贡献等多样化来源中收集隐喻表达式,并提供了通过人工标注验证的二进制和分级隐喻性判断。每个实例都包括源-目标概念映射和0-7尺度上的感知隐喻性评分。MCC是第一个为计算科学隐喻研究创建的注释资源,支持多个研究应用,包括隐喻检测基准测试、质量感知生成系统和以患者为中心的通信。
The MCC dataset is a comprehensive resource containing 792 scientific conceptual metaphors spanning the fields of medicine and biology. This dataset collects metaphorical expressions from diverse sources including peer-reviewed literature, news media, social media discussions, and crowdsourced contributions, and provides binary and graded metaphoricity judgments validated via manual annotation. Each instance includes a source-target conceptual mapping and a perceived metaphoricity score on a 0–7 scale. The MCC is the first annotated resource developed for computational scientific metaphor research, supporting multiple research applications such as metaphor detection benchmarking, quality-aware generation systems, and patient-centered communication.
提供机构:
University of Bologna, Italy
创建时间:
2025-08-11
原始信息汇总
Medical Metaphors Corpus (MCC) 数据集概述
数据集简介
- 名称: Medical Metaphors Corpus (MCC)
- 描述: 首个公开的医学和生物学领域隐喻语言资源,包含792个标注的科学概念隐喻
- 目的: 填补通用领域隐喻数据集与科学NLP应用需求之间的空白
关键特征
- 标注句子: 792句含隐喻表达的句子
- 隐喻类型: 82种不同的医学和生物学领域隐喻类型
- 概念映射: 24个目标域和38个源域
- 标注内容:
- 二元隐喻标签(隐喻/字面)
- 分级隐喻评分(0-7分,0=字面,7=高度隐喻)
- 遵循概念隐喻理论(CMT)的源-目标概念映射
数据集统计
| 指标 | 数量 | 百分比 |
|---|---|---|
| "Yes" (隐喻) | 353 | 44.57% |
| "No" (字面) | 305 | 38.51% |
| Ties (分歧决策) | 134 | 16.90% |
| 总句子数 | 792 | 100% |
数据来源
| 来源 | 类型 | 数量 | 描述 |
|---|---|---|---|
| Van Rijn-van Tongeren (1997) | 文献 | 455 | 科学文章中的医学隐喻 |
| Camus (2009) | 新闻 | 19 | 《卫报》中的癌症隐喻 |
| Kaikarytė (2020) | 新闻 | 145 | 英国新闻媒体的医学隐喻 |
| Semino et al. (2018) | 社交媒体 | 27 | 患者论坛讨论 |
| Fereralda et al. (2022) | 社交媒体 | 35 | 癌症患者故事 |
| Cheded et al. (2022) | 新闻 | 35 | 医疗保健新闻中的医学隐喻 |
| Gibbs Jr & Franks (2002) | 访谈 | 50 | 癌症患者叙述 |
| Sinnenberg et al. (2018) | 社交媒体 | 40 | Twitter上的糖尿病讨论 |
| Metamia | 众包 | 16 | 用户贡献的隐喻 |
文件结构
medical-metaphors-corpus/
├── README.md
├── m3c.csv # 主数据集文件
├── code/
│ ├── calculate_llm_scores.py # 带置信度加权的LLM评估代码
│ └── example_query_llm.py # LLM查询示例脚本
└── data/
├── llm_responses_claude.csv # Claude评估结果
├── llm_responses_deepseek.csv # DeepSeek评估结果
├── llm_responses_gpt4.csv # GPT-4评估结果
├── llm_responses_o1preview.csv # o1-preview评估结果
├── llm_responses_o3mini.csv # o3-mini评估结果
└── QualtricsSurveyResponses...csv # 原始人类标注数据
基准LLM性能
标准指标
| 模型 | 准确率 | 精确率 | 召回率 | F1 |
|---|---|---|---|---|
| o1-preview | 0.716 | 0.714 | 0.714 | 0.714 |
| Claude Opus 4 | 0.711 | 0.746 | 0.725 | 0.707 |
| o3-mini | 0.706 | 0.785 | 0.727 | 0.695 |
| DeepSeek | 0.683 | 0.745 | 0.702 | 0.673 |
| GPT-4 | 0.655 | 0.785 | 0.727 | 0.695 |
置信度加权指标
| 模型 | 加权准确率 | 加权精确率 | 加权召回率 | 加权F1 |
|---|---|---|---|---|
| o1-preview | 0.758 | 0.716 | 0.714 | 0.716 |
| Claude Opus 4 | 0.755 | 0.756 | 0.721 | 0.705 |
| o3-mini | 0.752 | 0.799 | 0.706 | 0.690 |
| DeepSeek | 0.725 | 0.757 | 0.683 | 0.668 |
| GPT-4 | 0.690 | 0.776 | 0.655 | 0.626 |
使用示例
高评分隐喻(平均分>5.0)
- "It is inside the lungs that the virus turns nasty..."
- "Three-step theory of invasion" (关于细胞生物学)
低评分隐喻(平均分<1.0)
- "Two of its main activities—of the plasma membrane..."
- "I have learned to let the little things go." (癌症患者叙述)
伦理考量
- 所有数据来自公开来源
- 不包含私人医疗信息
- 人类标注获得知情同意
- 不包含个人身份信息
- 符合学术研究的合理使用条款
许可
- 许可证: CC BY 4.0 (用于学术和研究目的)
搜集汇总
数据集介绍

构建方式
Medical Metaphors Corpus (MCC) 的构建过程遵循了系统化的数据收集与标注方法。研究团队通过关键词检索在学术和语言学数据库中筛选出符合条件的数据源,包括同行评审文献、新闻媒体、社交媒体讨论和众包贡献。每个数据源均经过标准化处理,保留原始句子及来源信息。为确保数据质量,团队采用了双重标注机制,由42名高级语言学学生和在线语言学家独立完成标注,每位标注者处理约80个句子。标注过程中,除了传统的二元隐喻判断外,还引入了0-7分的隐喻性感知评分,以捕捉隐喻性的连续谱特征。通过Fleiss' kappa和Pearson相关系数等统计方法验证了标注者间的一致性,最终形成了包含792个句子的高质量语料库。
特点
MCC数据集在医学隐喻研究领域具有多项突出特点。作为首个专注于医学和生物学领域的隐喻标注资源,它涵盖了82种隐喻类型,涉及24个目标域和38个源域的丰富映射关系。数据集创新性地引入了分级隐喻性评分(0-7分),突破了传统二元标注的局限,更精准地反映了隐喻感知的连续特性。语料来源的多样性是其另一显著特征,数据来自学术文献、新闻报道、患者论坛和社交媒体等九种不同渠道,确保了领域表征的全面性。每个实例都包含源-目标域映射关系和经过人工验证的隐喻性评分,为计算语言学研究和临床应用提供了多维度的分析基础。特别值得注意的是,数据集还记录了标注过程中的分歧情况,为研究隐喻理解的边界现象提供了宝贵资源。
使用方法
MCC数据集支持广泛的科研与应用场景。在计算语言学领域,研究者可利用该数据集开发隐喻检测算法,通过二元标签或连续评分评估模型性能。基于置信度加权的评估框架特别适用于处理标注存在分歧的边界案例,其中权重分配与人类标注共识度成正比。数据集的结构化标注支持源-目标域映射分析,可用于研究特定概念隐喻在医学传播中的演变规律。在医疗健康应用方面,该资源能够训练患者友好型文本生成系统,通过选择适当隐喻改善医患沟通效果。教育工作者可借助分级隐喻性评分,设计针对不同专业水平学习者的科学传播教学材料。使用建议包括:采用交叉验证策略处理数据规模限制,结合领域知识解释源-目标域映射,以及利用分歧分析识别医学专业术语的特殊隐喻现象。
背景与挑战
背景概述
医学隐喻语料库(Medical Metaphors Corpus, MCC)由意大利博洛尼亚大学的Anna Sofia Lippolis、CNR认知科学与技术研究所的Andrea Giovanni Nuzzolese以及博洛尼亚大学的Aldo Gangemi于2025年联合创建。该数据集聚焦于医学与生物学领域的科学隐喻,收录了792条经过标注的科学概念隐喻,涵盖同行评审文献、新闻媒体、社交媒体讨论及众包贡献等多源数据。MCC不仅提供二元隐喻性判断,还包含0-7级的隐喻性评分,成为首个面向计算科学隐喻研究的标注资源。其核心研究问题在于填补领域特定隐喻资源的空白,推动科学交流中隐喻的检测、生成与理解研究,对计算语言学、科学传播及患者中心化沟通具有重要影响。
当前挑战
MCC面临的挑战主要体现在两方面:领域问题层面,科学隐喻的检测与理解需克服高度专业化术语与常规化隐喻的边界模糊性,现有语言模型在领域特定隐喻识别上表现有限(如GPT-4加权准确率仅69%),且存在对明确隐喻案例的保守判断倾向;构建过程层面,数据异质性导致标注共识度较低(Fleiss'κ=0.23),隐喻性连续统特性要求设计梯度评分体系,而医学隐喻的常规化现象进一步增加了隐喻性感知标注的复杂度。此外,跨渠道数据(学术文献vs社交媒体)的文体差异也加剧了隐喻统一标注框架的设计难度。
常用场景
经典使用场景
医学隐喻语料库(MCC)在自然语言处理领域中被广泛用于科学隐喻的检测与理解研究。作为首个针对医学和生物学领域的隐喻标注资源,该数据集为研究者提供了丰富的隐喻实例,包括从学术文献到社交媒体等多种来源的隐喻表达。通过其详细的二元和分级隐喻性标注,MCC为开发更精准的隐喻检测算法提供了重要基准。
实际应用
在实际应用中,MCC为改善医患沟通提供了重要支持。通过分析不同隐喻框架(如“战争”与“旅程”)对患者情绪和治疗决策的影响,该数据集可帮助开发个性化的医疗沟通工具。同时,其在科学写作辅助系统中的应用,能够帮助研究者选择更恰当的隐喻来表达复杂概念。
衍生相关工作
MCC的发布催生了一系列相关研究,包括基于该数据集开发的MetaPRO等隐喻检索系统,以及探索理论引导提示(TSI-CMT)在大型语言模型中应用的工作。这些衍生研究不仅推动了计算隐喻学的发展,也为科学传播中的隐喻生成和控制提供了新方法。
以上内容由遇见数据集搜集并总结生成



