Moral Foundations Weibo Corpus (MFWC)
收藏arXiv2024-11-15 更新2024-11-19 收录
下载链接:
http://arxiv.org/abs/2411.09612v1
下载链接
链接失效反馈官方服务:
资源简介:
Moral Foundations Weibo Corpus (MFWC) 是由温州肯恩大学和南昌航空大学联合创建的一个中文微博评论数据集,包含25,671条评论,涵盖六个不同的主题领域。每条评论根据道德基础理论的十个道德类别进行手动标注,确保了数据集的细致性和准确性。数据集的创建旨在解决现有数据集在语言和文化表达上的局限性,特别是针对中文社交媒体中的道德情感分析。MFWC的应用领域主要集中在自然语言处理中的道德情感分类,旨在通过大数据分析深入理解用户的心理倾向和行为模式。
Moral Foundations Weibo Corpus (MFWC) is a Chinese Weibo comment dataset jointly developed by Wenzhou-Kean University and Nanchang Hangkong University. It contains 25,671 comments covering six distinct thematic domains. Each comment is manually annotated based on the ten moral categories under Moral Foundations Theory, ensuring the meticulousness and accuracy of the dataset. This dataset was created to address the limitations of existing datasets in terms of linguistic and cultural expression, specifically for moral sentiment analysis in Chinese social media. The main application areas of MFWC focus on moral sentiment classification in natural language processing, with the goal of deeply understanding users' psychological tendencies and behavioral patterns through big data analysis.
提供机构:
温州肯恩大学, 南昌航空大学
创建时间:
2024-11-15
搜集汇总
数据集介绍

构建方式
Moral Foundations Weibo Corpus (MFWC) 的构建基于中国领先的社交媒体平台微博上的25,671条评论。这些评论涵盖了六个不同的主题领域,并根据道德基础理论中的十个道德类别进行手动标注。每个评论至少由三位经过系统培训的标注者进行标注,以确保标注的准确性和一致性。为了评估标注者之间的一致性,研究团队采用了kappa测试,这是一种衡量一致性的黄金标准。此外,研究还应用了最新的语言模型来补充手动标注,并进行了分析实验以比较其性能,从而为道德情感分类提供了基线结果。
特点
MFWC 数据集的显著特点在于其针对中国语言和文化背景的独特性。与西方社交媒体平台相比,微博的内容审核机制更为严格,这使得MFWC中的道德情感表达更为克制和间接。此外,该数据集涵盖了多个敏感话题,如政治和历史事件,这些话题通常包含深刻的社会问题和道德困境,从而增强了数据集的分析深度和相关性。通过提供一个具有更多适度表达道德情感的数据集,MFWC为道德自然语言处理研究提供了宝贵的对比资源。
使用方法
MFWC 数据集可用于训练和评估道德情感分类模型。研究者可以使用该数据集来开发和测试针对中文文本的道德情感分析算法。此外,数据集中的多标签分类任务可以帮助研究者理解道德情感类别之间的相互关系。通过比较不同语言模型在MFWC上的表现,研究者可以评估这些模型在道德情感分类任务中的适用性和性能,从而为未来的研究提供参考和指导。
背景与挑战
背景概述
道德情感在自然语言中的表达对线上线下环境均有深远影响,塑造了行为模式和互动方式,包括社交媒体上的自我呈现、网络欺凌、对社会规范的遵守以及伦理决策。为有效衡量自然语言处理文本中的道德情感,利用大规模标注数据集以提供细致入微的理解显得尤为关键。然而,现有语料库虽有价值,但常面临语言局限性。为填补中文领域的这一空白,我们引入了道德基础微博语料库(Moral Foundations Weibo Corpus, MFWC)。该语料库包含25,671条微博评论,涵盖六个不同主题领域,每条评论均由至少三名经过系统培训的标注者根据基于扎根理论的十种道德类别进行手动标注。
当前挑战
MFWC的构建过程中面临多重挑战。首先,中文与英文在道德情感表达上存在显著差异,中文文化更注重面子和社会和谐,因此情感表达更为含蓄和委婉。其次,微博平台的内容审核机制严格,导致道德情感的表达更为克制,这为数据集的多样性带来了挑战。此外,中文语境下的道德问题涉及复杂的语言特征和上下文理解,使得标注过程充满主观性和歧义。为确保标注的一致性,研究团队采用了kappa测试和PABAK测试,但仍发现不同主题领域间的标注一致性存在显著差异。
常用场景
经典使用场景
Moral Foundations Weibo Corpus (MFWC) 的经典应用场景在于其为中文社交媒体上的道德情感分析提供了丰富的数据资源。通过分析微博上的评论,研究者能够深入探讨中国用户在不同主题下的道德表达,如动物保护、房地产、民生等。这种基于大规模标注数据的分析,不仅有助于理解中国社交媒体用户的道德倾向,还为跨文化道德语言处理研究提供了宝贵的对比数据。
解决学术问题
MFWC 解决了在道德自然语言处理领域中,中文数据集匮乏的问题。该数据集通过提供25,671条经过多重标注的微博评论,填补了中文道德情感分析的空白。这不仅促进了中文道德语言处理模型的训练和验证,还为跨文化道德情感研究提供了重要的数据支持,推动了该领域的学术进展。
衍生相关工作
基于 MFWC,研究者们开发了多种道德情感分类模型,如 GPT-4、Llama 3 和 Qwen 2,这些模型在道德情感识别任务中表现出色。此外,MFWC 还激发了关于中文道德表达特性的进一步研究,推动了跨文化道德语言处理领域的理论和方法创新。
以上内容由遇见数据集搜集并总结生成



