Spinn3rBPM, TUSCctry-BPM, TUSCcity-BPM, Spinn3rBPM-Zhuang
收藏arXiv2025-05-22 更新2025-05-28 收录
下载链接:
http://arxiv.org/abs/2505.16189v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由加拿大麦吉尔大学、德国哥廷根大学和加拿大国家研究委员会的研究人员创建的,包含了大量在线英语文本中的身体部位提及(BPMs)的语料库。该数据集包括博客文章和推文,并有一个子集包含对文本中提及的身体部位的情绪的人类注释。该数据集主要用于研究身体部位相关的词汇在语言中的作用,以及它们如何与情绪、具身认知和人类福祉等领域的研究相结合。
This dataset was created by researchers from McGill University (Canada), the University of Göttingen (Germany), and the National Research Council Canada. It comprises a corpus of body part mentions (BPMs) from a large volume of online English texts, including blog posts and tweets. A subset of this dataset contains human annotations of the emotions associated with the body parts mentioned in the texts. This dataset is primarily used to study the role of body-part-related vocabulary in language, as well as how such vocabulary intersects with research in fields including emotion, embodied cognition, and human well-being.
提供机构:
加拿大麦吉尔大学, 德国哥廷根大学, 加拿大国家研究委员会
创建时间:
2025-05-22
搜集汇总
数据集介绍

构建方式
该数据集构建于在线英文文本(博客文章和推文)中提及身体部位(BPMs)的语料库,包括Spinn3rBPM(博客文章)和TUSCBPM(推文)两个主要子集。通过从Spinn3r个人博客数据集和TUSC数据集中提取包含至少一个身体部位词汇的实例,形成了三个最终语料库:Spinn3rBPM、TUSCctry-BPM和TUSCcity-BPM。此外,还利用Zhuang等人标注的Spinn3r子集,扩展了情感标注内容,包括BPM的所有权和情感状态。
特点
该数据集的特点在于其专注于身体部位提及(BPMs)与情感、健康之间的关联。研究发现,BPMs在个人叙事和推文中普遍存在(约5%至10%的帖子包含BPMs),且其使用模式在时间和地点上差异显著。数据集还揭示了BPMs文本往往更具情感色彩,即使BPM并未明确用于描述情感引发的身体反应。此外,身体相关语言与多种不良健康结果之间存在显著相关性。
使用方法
该数据集可用于研究语言、情感和身体健康之间的关系。研究人员可以通过分析BPMs在不同语境下的使用频率和情感关联,探索身体部位提及与情感表达之间的深层联系。此外,数据集还可用于跨文化和跨语言研究,以及健康领域的自然语言处理应用。具体使用时,可通过提取BPM实例并结合情感词汇关联词典,进行大规模文本分析。
背景与挑战
背景概述
Spinn3rBPM、TUSCctry-BPM、TUSCcity-BPM和Spinn3rBPM-Zhuang数据集由McGill University的Sophie Wu、University of Göttingen的Jan Philip Wahle以及National Research Council Canada的Saif M. Mohammad等研究人员于2025年创建。这些数据集专注于研究身体部位提及(Body Part Mentions, BPMs)在自然语言中的使用,旨在探索身体部位提及与情感、健康之间的关联。数据集基于博客文章和推文,涵盖了大量的在线英语文本,并首次引入了人体标注的情感数据。该数据集的研究背景植根于具身认知理论,强调人类认知与身体经验的紧密联系,为自然语言处理(NLP)、情感科学和人类福祉研究提供了新的视角。
当前挑战
该数据集面临的挑战主要包括两个方面:1) 领域问题的挑战:数据集旨在解决身体部位提及在情感表达和健康预测中的应用问题,但如何准确识别和分类情感与身体部位提及的复杂关系仍具挑战性。例如,区分身体部位提及是用于描述具体生理反应还是隐喻性表达需要精细的语义分析。2) 构建过程中的挑战:数据集的构建涉及处理大量非结构化的社交媒体文本,其中包含大量歧义和噪声。例如,某些词汇可能具有多义性(如“back”既可指身体部位也可指方位),且社交媒体文本的语言风格多样,增加了标注的难度。此外,确保标注的一致性和准确性,尤其是在情感标注方面,也是一个重要的挑战。
常用场景
经典使用场景
在情感计算与自然语言处理领域,Spinn3rBPM和TUSC-BPM系列数据集通过标注博客与推文中身体部位提及(BPMs)与情感的关联,为研究具身认知理论提供了实证基础。其经典应用包括分析文本中'my heart'等短语如何隐含情绪状态,以及探索季节性、地域性差异对BPM使用频率的影响,例如夏季推文中'my skin'提及率显著升高,揭示了环境因素与语言表达的相关性。
解决学术问题
该数据集解决了具身认知理论中'语言如何编码身体经验'的核心问题,通过量化BPMs与情绪词汇的共现模式(如低支配性词频提升15%),验证了身体部位词汇与负面情绪表达的强相关性。此外,其标注数据首次证实了非显性具身情绪(如'his hands trembled'未直接描述情绪)仍具有情感负载,突破了传统情感分析仅关注显性情绪表达的局限。
衍生相关工作
该数据集催生了Zhuang等人(2024)关于显性具身情绪识别的研究,其提出的双阶段标注框架成为后续工作的基准。Mohammad团队进一步构建了跨语言BPM情感词典,而Chaturvedi等(2023)则将其扩展至医疗记录分析,开发了通过疼痛相关BPMs追踪患者康复进度的临床模型。
以上内容由遇见数据集搜集并总结生成



