E2MoCase

Name: E2MoCase
Creator: 卡拉布里亚大学, 洛桑大学
Published: 2024-09-14 01:31:09
License: 暂无描述

arXiv2024-09-14 更新2024-09-18 收录

下载链接：

http://arxiv.org/abs/2409.09001v1

下载链接

链接失效反馈

官方服务：

资源简介：

E2MoCase是由卡拉布里亚大学和洛桑大学联合创建的一个新型数据集，专门用于分析新闻文章中涉及高影响力法律案件的情绪、道德和事件。该数据集包含97,251条新闻段落，涵盖了从瑞士媒体收集的25年新闻数据，涉及多种语言。数据集通过半自动化的方式构建，利用先进的语言模型进行情绪检测、道德价值识别和事件提取。E2MoCase旨在解决媒体叙事中的偏见问题，通过多维度的分析，帮助训练AI模型识别法律案件报道中的道德、情感和事实特征，从而促进法律和媒体活动的公平性。

E2MoCase is a novel dataset jointly created by the University of Calabria and the University of Lausanne, specifically dedicated to analyzing sentiment, moral values, and events related to high-impact legal cases in news articles. This dataset contains 97,251 news paragraphs, covering 25 years of news data collected from Swiss media across multiple languages. The dataset was constructed in a semi-automated manner, leveraging advanced language models for sentiment detection, moral value recognition, and event extraction. E2MoCase aims to address bias in media narratives. Through multi-dimensional analysis, it assists in training AI models to identify moral, emotional, and factual features in reports on legal cases, thereby promoting fairness in legal and media-related activities.

提供机构：

卡拉布里亚大学, 洛桑大学

创建时间：

2024-09-14

搜集汇总

数据集介绍

构建方式

E2MoCase数据集的构建过程分为三个主要阶段：案例选择、新闻检索和数据集设计与标注。首先，通过半自动方式选择具有广泛媒体影响的法律案例，这些案例因文化偏见而受到关注。随后，利用Swissdox API从可信的新闻来源中检索相关新闻文章。最后，采用段落级别的自动标注方法，利用先进的领域特定大型语言模型（如MoralBERT、EmoLLaMA和GoLLIE）对新闻段落进行情感、道德和事件的标注。每个数据实例包括案例主题、新闻文章标识符、段落标识符、翻译成英文的段落（若原文非英文）、原始语言、情感标签的数值评分、道德标签的数值评分以及检测到的事件的JSON字符串。

使用方法

E2MoCase数据集可用于多种自然语言处理任务，包括情感检测、道德分析和事件提取。研究者可以利用该数据集训练模型，以识别和量化新闻报道中的情感、道德和事件特征。此外，数据集还可用于支持偏见检测等应用，通过训练模型识别带有偏见的文本中的道德、情感和事实特征。通过分析E2MoCase数据集，研究者能够更深入地理解媒体如何塑造公众对法律案例的看法，从而为构建更加公平的司法和媒体环境提供有力支持。

背景与挑战

背景概述

在当今社会，媒体对法律案件的报道不仅影响公众舆论，还常常隐含着微妙的偏见，进而影响社会对正义和道德的看法。为了深入分析这些偏见，需要一种综合的方法来捕捉叙事中的情感基调、道德框架和具体事件。E2MoCase数据集应运而生，由意大利卡拉布里亚大学和瑞士洛桑大学的研究人员共同开发。该数据集旨在促进对法律叙事和媒体报道中情感、道德价值和事件的集成分析。通过利用先进的情感检测、道德价值识别和事件提取模型，E2MoCase提供了一个多维度的视角，揭示了新闻文章中法律案件的呈现方式。

当前挑战

E2MoCase数据集面临的挑战主要集中在两个方面。首先，解决领域问题的挑战在于如何准确捕捉和分析新闻报道中的情感、道德和事件，这些元素往往交织在一起，难以分离。其次，在构建过程中，研究人员遇到了数据标注的复杂性，需要借助先进的语言模型如MoralBERT、EmoLLaMA和GoLLIE进行自动标注，这不仅增加了数据处理的难度，还要求对标注结果进行严格的验证。此外，数据集的跨文化适用性也是一个重要挑战，因为不同文化背景下对情感和道德的理解可能存在显著差异。

常用场景

经典使用场景

E2MoCase数据集的经典应用场景在于分析新闻文章中对重大法律案件的报道，通过集成情感、道德和事件的多维度视角，揭示媒体叙事如何影响公众对法律和道德问题的看法。该数据集利用先进的情感检测、道德价值识别和事件提取模型，为研究人员提供了一个全面的工具，用以探讨媒体如何通过情感和道德框架塑造公众对法律案件的认知。

解决学术问题

E2MoCase数据集解决了学术界在分析媒体对法律案件报道时缺乏多维度数据的问题。通过整合情感、道德和事件的标注，该数据集为研究媒体偏见、公众舆论形成以及法律叙事的社会影响提供了新的视角。其意义在于推动了对媒体叙事复杂性的理解，为构建更公平的社会法律和媒体环境提供了理论支持。

实际应用

在实际应用中，E2MoCase数据集可用于训练和验证自然语言处理模型，以识别和量化新闻文章中的情感、道德和事件特征。这些模型可以应用于媒体监测、舆论分析和法律研究，帮助识别和纠正媒体报道中的偏见，提升新闻报道的客观性和公正性。此外，该数据集还可用于教育和培训，帮助新闻从业者更好地理解和应用道德和情感分析工具。

数据集最近研究