BERT_Journalism_Sentiment

Hugging Face2024-12-21 更新2024-12-22 收录

下载链接：

https://huggingface.co/datasets/Giannis79/BERT_Journalism_Sentiment

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从网站存档中抓取的涉及2022年俄乌战争的新闻文章，用于训练和评估一个预训练BERT模型进行情感分析。数据集包括一个用于训练的CSV文件narratives.csv，其中包含亲乌和亲俄的句子，以及一个用于评估模型性能的CSV文件Model_evaluator.csv，其中包含亲乌和亲俄的简单句子。

This dataset contains news articles related to the 2022 Russia-Ukraine War scraped from web archives, and is used for training and evaluating a pre-trained BERT model for sentiment analysis. The dataset includes a training CSV file named narratives.csv, which contains pro-Ukrainian and pro-Russian sentences, as well as an evaluation CSV file named Model_evaluator.csv, which contains simple pro-Ukrainian and pro-Russian sentences for assessing model performance.

创建时间：

2024-12-19

原始信息汇总

BERT Journalism Sentiment 数据集

项目概述

该数据集用于对涉及2022年俄乌战争的新闻文章进行情感分析，使用预训练的BERT模型。目标是根据文章的情感将其分类为亲俄或亲乌，并计算情感得分。

数据集创建步骤

抓取新闻文章：使用Python_Scraper.py脚本从网站档案中抓取新闻文章，生成一个包含标题、URL和内容的大数据集。抓取的文章标题中包含关键词"Russia"、"Ukraine"、"Zelensky"、"Putin"。
创建训练数据集：创建一个包含亲乌和亲俄句子的CSV文件，例如narratives.csv，包含四列：text, label, narrative_category, message_type。
训练模型：使用BERT_Trainner.py脚本基于narratives.csv训练BERT模型，生成一个AI模型。
评估模型效率：使用BERT_Model_Evaluator.py脚本评估模型的情感分析效果，输出每个句子的情感得分，得分范围为0到10，0表示极端亲俄，5表示中立，10表示极端亲乌。
评估文章情感：使用BERT_Article_Evaluator.py脚本评估文章的情感，生成一个包含情感、得分和月份的CSV文件。

数据集结构

抓取的新闻文章CSV：包含三列：Title, URL, Content。
训练数据集CSV：包含四列：text, label, narrative_category, message_type。
模型评估CSV：包含两列：pro-Ukrainian和pro-Russian的句子。
文章情感评估CSV：包含三列：Sentiment, Score, Month。

搜集汇总

数据集介绍

构建方式

BERT_Journalism_Sentiment数据集的构建基于对新闻文章的系统性抓取与分类。通过Python_Scraper.py脚本，从指定网站的档案中抓取包含关键词如'Russia', 'Ukraine', 'Zelensky', 'Putin'的文章，并将其存储为CSV文件，包含标题、URL和内容三列。随后，创建一个训练数据集narratives.csv，该数据集包含四列：文本、标签、叙述类别和消息类型，用于训练BERT模型以进行情感分析。

使用方法

使用BERT_Journalism_Sentiment数据集时，首先通过Python_Scraper.py脚本抓取新闻文章，生成包含标题、URL和内容的CSV文件。接着，利用narratives.csv作为训练数据集，通过BERT_Trainner.py脚本训练BERT模型。训练完成后，使用BERT_Model_Evaluator.py脚本评估模型的情感分析效果，并最终通过BERT_Article_Evaluator.py脚本对新闻文章进行情感评分，生成包含情感、得分和月份的CSV文件。

背景与挑战

背景概述

BERT_Journalism_Sentiment数据集由一位硕士研究生在其论文研究中创建，旨在通过预训练的BERT模型对涉及2022年俄乌战争的新闻文章进行情感分析。该数据集的核心研究问题是对新闻文章的情感倾向进行分类，具体分为亲俄或亲乌，并计算情感得分。通过从网站档案中抓取包含特定关键词的新闻文章，构建了一个包含标题、URL和内容的大规模数据集。这一研究不仅为情感分析领域提供了新的数据资源，也为理解公众对特定事件的情感反应提供了量化工具。

当前挑战

该数据集在构建过程中面临多项挑战。首先，从新闻网站抓取数据需要处理大量的文本内容，确保数据的准确性和完整性是一个技术难题。其次，创建训练数据集时，如何准确标注亲俄或亲乌的情感倾向，避免主观偏见，是一个重要的挑战。此外，使用BERT模型进行训练和评估时，模型的性能和泛化能力需要通过严格的验证，以确保情感分类的准确性和可靠性。这些挑战不仅涉及技术实现，还涉及数据伦理和情感分析的复杂性。

常用场景

经典使用场景

BERT_Journalism_Sentiment数据集的经典使用场景主要集中在新闻文章的情感分析领域。通过利用预训练的BERT模型，该数据集能够对涉及俄罗斯-乌克兰2022年战争的新闻文章进行情感分类，具体分为亲俄或亲乌两类，并计算相应的情感得分。这一过程不仅有助于深入理解新闻报道的情感倾向，还为后续的舆论分析提供了坚实的基础。

解决学术问题

该数据集在学术研究中解决了新闻情感分析中的关键问题，特别是在处理复杂国际事件报道时的情感分类难题。通过提供一个大规模的、标注精细的新闻文章数据集，BERT_Journalism_Sentiment使得研究者能够更准确地评估和预测公众对特定事件的情感反应，从而在舆论动态分析、信息传播研究等领域具有重要意义。

实际应用

在实际应用中，BERT_Journalism_Sentiment数据集可广泛应用于新闻媒体监控、公共舆论分析以及危机管理等领域。例如，政府机构和非政府组织可以利用该数据集来实时监控和分析公众对特定事件的情感反应，从而制定更为有效的沟通策略和政策。此外，新闻媒体也可以通过该数据集来优化内容策略，以更好地满足受众的情感需求。

数据集最近研究