E2MoCase

Hugging Face2025-06-18 更新2025-06-19 收录

下载链接：

https://huggingface.co/datasets/lorenzozan/E2MoCase

下载链接

链接失效反馈

官方服务：

资源简介：

E2MoCase是一个关于现实世界法律案件新闻故事的语料库，它将新闻故事与具体事件、激发的情绪和道德基础联系起来。每个段落都被独立地标注了相关事件、情绪标签和道德标签，以便研究人员能够深入了解叙事偏见。该数据集包含了从19,250篇新闻文章中提取的97,251个段落，这些文章来自大约100个具有重大媒体影响的法律案件。每个段落都被标注了情绪和道德标签，其中50,975个段落也被标注了事件。数据集还包括使用不同的预训练语言模型生成的句子嵌入。

创建时间：

2025-06-11

原始信息汇总

E2MoCase 数据集概述

基本信息

许可证: CC-BY-4.0
语言: 英语 (en)
标签: Emotion, Morality, Events
数据集名称: E2MoCase
数据规模: 10K < n < 100K

数据集描述

E2MoCase 是一个新颖的精选数据集，将关于真实世界法律案例的新闻故事与以下内容联系起来：

描述的具体事件
引发的情感
涉及的道德基础

数据集包含从19,250篇新闻文章中提取的97,251个段落，每个段落独立标注了事件（触发词和涉及实体）、情感标签和道德标签。

数据统计

	E2MoCase	E2MoCase_noEvents	E2MoCase_full
# paragraphs	50,975	46,276	97,251
avg # tokens	275.106 ± 245.303	139.402 ± 220.950	210.532 ± 243.647
avg # emotions	1.164 ± 0.757	1.634 ± 0.680	1.678 ± 0.657
avg # morals	3.517 ± 3.870	1.773 ± 1.644	2.795 ± 2.424
avg # events	3.597 ± 2.940	0.0 ± 0.0	1.885 ± 2.785

数据字段

content_id: 新闻项在 SwissDox 中的识别码
P: 段落识别码，格式为 $P_i$
subject: 新闻项的主要主题
event: 事件的 JSON 格式列表
道德相关字段: care, harm, fairness, cheating, loyalty, betrayal, authority, subversion, purity, degradation
情感相关字段: anticipation, trust, disgust, joy, optimism, surprise, love, anger, sadness, pessimism, fear
embeddings: 使用不同 SentenceTransformers 计算的段落级嵌入

数据配置

bert-base-uncased
all-MiniLM-L6-v2
all-mpnet-base-v2
Qwen3-Embedding-0.6B
BAAI-bge-m3

数据访问

原始新闻段落因商业限制无法公开共享
提供句子嵌入和标注数据
提供从零开始重建数据集的源代码

引用信息

bibtex @misc{candida_maria_greco_2025, author = { Candida Maria Greco and Lorenzo Zangari and Davide Picca and Andrea Tagarelli }, title = { E2MoCase (Revision 745e678) }, year = 2025, url = { https://huggingface.co/datasets/lorenzozan/E2MoCase }, doi = { 10.57967/hf/5819 }, publisher = { Hugging Face } }

注意事项

仅限研究用途
包含有偏见的新闻内容
作者不对因传播偏见而产生的任何损害或责任负责

搜集汇总

数据集介绍

构建方式

E2MoCase数据集的构建过程体现了严谨的学术规范与跨学科研究方法。该数据集基于瑞士Swissdox@LiRI平台收录的19,250篇具有重大社会影响力的法律案件新闻报道，通过专业的人工审核流程确保案例事实准确性。研究团队采用段落级标注策略，对97,251个新闻段落进行三重标注：事件要素（触发词与参与实体）、情感维度（11类情绪指标）和道德基础（10类道德价值评分）。为保障数据可复现性，项目开源了完整的Swissdox查询接口与数据处理代码，同时提供五种预训练语言模型生成的句向量表征。

使用方法

研究者可通过Hugging Face平台便捷获取该数据集的多个变体。基础版本包含原始文本的元数据与标注信息，而特定配置版本（如Qwen3-Embedding-0.6B）则提供不同语言模型的句向量表征。使用示例代码演示了如何加载数据集并转换为Pandas DataFrame，其中事件字段需通过ast.literal_eval解析为JSON结构。为适应不同研究需求，数据集提供三种划分方案：完整版（E2MoCase_full）、纯事件段落子集（E2MoCase）及无事件段落子集（E2MoCase_noEvents）。需要特别关注的是，由于商业版权限制，原始新闻文本需通过Swissdox平台合规获取。

背景与挑战

背景概述

E2MoCase数据集由Candida Maria Greco、Lorenzo Zangari等研究人员于2024年构建，旨在探索新闻报道中事件、情感与道德框架之间的复杂关联。该数据集源自瑞士Swissdox@LiRI平台收录的19,250篇涉及高影响力法律案件的新闻，通过人工验证案件事实性及媒体影响力，最终标注了97,251个新闻段落。其创新性在于首次实现了事件触发词、实体参与者的细粒度标注，与情感标签、道德标签的多维度对齐，为叙事偏见分析提供了全新研究视角。该资源目前正应用于道德基础预测模型ME2-BERT等前沿研究，对计算语言学与社会心理学交叉领域具有显著推动作用。

当前挑战

构建E2MoCase面临双重挑战：在领域问题层面，需解决多模态标注的语义对齐难题——如何准确捕捉事件描述、情感唤起与道德评判之间的隐含关联，这对标注框架设计提出极高要求；在技术实现层面，受限于商业数据协议，原始新闻文本无法公开，迫使研究者创新性地采用预训练模型生成句向量替代原始文本，并通过开源查询脚本确保研究可复现性。此外，数据偏见控制成为关键挑战，入选案例需同时满足媒体影响力与文化偏见显著性标准，这对样本筛选的客观性提出严峻考验。

常用场景

经典使用场景

在情感计算与道德心理学交叉领域的研究中，E2MoCase数据集通过标注新闻段落中的事件、情感和道德基础，为研究者提供了一个多维度分析叙事偏见的工具。该数据集特别适用于探究媒体如何通过语言选择影响公众对法律案件的情感反应和道德判断，例如分析高关注度案件中不同媒体对同一事件的报道差异。

解决学术问题

该数据集有效解决了情感与道德认知关联性研究的三大瓶颈：一是缺乏同时标注事件、情感和道德维度的语料；二是传统数据集难以捕捉法律语境下的复杂叙事结构；三是缓解了跨文化道德价值观量化研究的语料短缺问题。通过提供细粒度的段落级标注，研究者可定量分析特定事件触发词与道德评判之间的映射关系。

实际应用

在司法舆情监测系统中，E2MoCase支持开发基于多模态特征的媒体偏见检测模型。其情感-道德联合标注体系可辅助预测新闻报道可能引发的社会情绪波动，为公共危机管理提供决策支持。法律科技公司正利用该数据集训练AI系统，以识别法庭文件中潜在的道德框架偏差。

数据集最近研究