five

BERT_Journalism_Sentiment|情感分析数据集|自然语言处理数据集

收藏
huggingface2024-12-21 更新2024-12-22 收录
情感分析
自然语言处理
下载链接:
https://huggingface.co/datasets/Giannis79/BERT_Journalism_Sentiment
下载链接
链接失效反馈
资源简介:
该数据集包含从网站存档中抓取的涉及2022年俄乌战争的新闻文章,用于训练和评估一个预训练BERT模型进行情感分析。数据集包括一个用于训练的CSV文件narratives.csv,其中包含亲乌和亲俄的句子,以及一个用于评估模型性能的CSV文件Model_evaluator.csv,其中包含亲乌和亲俄的简单句子。
创建时间:
2024-12-19
原始信息汇总

BERT Journalism Sentiment 数据集

项目概述

该数据集用于对涉及2022年俄乌战争的新闻文章进行情感分析,使用预训练的BERT模型。目标是根据文章的情感将其分类为亲俄或亲乌,并计算情感得分。

数据集创建步骤

  1. 抓取新闻文章:使用Python_Scraper.py脚本从网站档案中抓取新闻文章,生成一个包含标题、URL和内容的大数据集。抓取的文章标题中包含关键词"Russia"、"Ukraine"、"Zelensky"、"Putin"。
  2. 创建训练数据集:创建一个包含亲乌和亲俄句子的CSV文件,例如narratives.csv,包含四列:text, label, narrative_category, message_type。
  3. 训练模型:使用BERT_Trainner.py脚本基于narratives.csv训练BERT模型,生成一个AI模型。
  4. 评估模型效率:使用BERT_Model_Evaluator.py脚本评估模型的情感分析效果,输出每个句子的情感得分,得分范围为0到10,0表示极端亲俄,5表示中立,10表示极端亲乌。
  5. 评估文章情感:使用BERT_Article_Evaluator.py脚本评估文章的情感,生成一个包含情感、得分和月份的CSV文件。

数据集结构

  • 抓取的新闻文章CSV:包含三列:Title, URL, Content。
  • 训练数据集CSV:包含四列:text, label, narrative_category, message_type。
  • 模型评估CSV:包含两列:pro-Ukrainian和pro-Russian的句子。
  • 文章情感评估CSV:包含三列:Sentiment, Score, Month。
AI搜集汇总
数据集介绍
main_image_url
构建方式
BERT_Journalism_Sentiment数据集的构建基于对新闻文章的系统性抓取与分类。通过Python_Scraper.py脚本,从指定网站的档案中抓取包含关键词如'Russia', 'Ukraine', 'Zelensky', 'Putin'的文章,并将其存储为CSV文件,包含标题、URL和内容三列。随后,创建一个训练数据集narratives.csv,该数据集包含四列:文本、标签、叙述类别和消息类型,用于训练BERT模型以进行情感分析。
使用方法
使用BERT_Journalism_Sentiment数据集时,首先通过Python_Scraper.py脚本抓取新闻文章,生成包含标题、URL和内容的CSV文件。接着,利用narratives.csv作为训练数据集,通过BERT_Trainner.py脚本训练BERT模型。训练完成后,使用BERT_Model_Evaluator.py脚本评估模型的情感分析效果,并最终通过BERT_Article_Evaluator.py脚本对新闻文章进行情感评分,生成包含情感、得分和月份的CSV文件。
背景与挑战
背景概述
BERT_Journalism_Sentiment数据集由一位硕士研究生在其论文研究中创建,旨在通过预训练的BERT模型对涉及2022年俄乌战争的新闻文章进行情感分析。该数据集的核心研究问题是对新闻文章的情感倾向进行分类,具体分为亲俄或亲乌,并计算情感得分。通过从网站档案中抓取包含特定关键词的新闻文章,构建了一个包含标题、URL和内容的大规模数据集。这一研究不仅为情感分析领域提供了新的数据资源,也为理解公众对特定事件的情感反应提供了量化工具。
当前挑战
该数据集在构建过程中面临多项挑战。首先,从新闻网站抓取数据需要处理大量的文本内容,确保数据的准确性和完整性是一个技术难题。其次,创建训练数据集时,如何准确标注亲俄或亲乌的情感倾向,避免主观偏见,是一个重要的挑战。此外,使用BERT模型进行训练和评估时,模型的性能和泛化能力需要通过严格的验证,以确保情感分类的准确性和可靠性。这些挑战不仅涉及技术实现,还涉及数据伦理和情感分析的复杂性。
常用场景
经典使用场景
BERT_Journalism_Sentiment数据集的经典使用场景主要集中在新闻文章的情感分析领域。通过利用预训练的BERT模型,该数据集能够对涉及俄罗斯-乌克兰2022年战争的新闻文章进行情感分类,具体分为亲俄或亲乌两类,并计算相应的情感得分。这一过程不仅有助于深入理解新闻报道的情感倾向,还为后续的舆论分析提供了坚实的基础。
解决学术问题
该数据集在学术研究中解决了新闻情感分析中的关键问题,特别是在处理复杂国际事件报道时的情感分类难题。通过提供一个大规模的、标注精细的新闻文章数据集,BERT_Journalism_Sentiment使得研究者能够更准确地评估和预测公众对特定事件的情感反应,从而在舆论动态分析、信息传播研究等领域具有重要意义。
实际应用
在实际应用中,BERT_Journalism_Sentiment数据集可广泛应用于新闻媒体监控、公共舆论分析以及危机管理等领域。例如,政府机构和非政府组织可以利用该数据集来实时监控和分析公众对特定事件的情感反应,从而制定更为有效的沟通策略和政策。此外,新闻媒体也可以通过该数据集来优化内容策略,以更好地满足受众的情感需求。
数据集最近研究
最新研究方向
在新闻情感分析领域,BERT_Journalism_Sentiment数据集的最新研究方向聚焦于利用预训练的BERT模型对涉及俄罗斯-乌克兰2022年战争的新闻文章进行情感分类。该研究不仅旨在区分文章的亲俄或亲乌立场,还通过计算情感得分来量化这种倾向。这一方向的研究在当前国际政治敏感时期尤为重要,因为它能够帮助分析公众舆论的倾向性,并为政策制定者提供数据支持。此外,该数据集的应用还扩展到了新闻内容的自动化分析,从而提高了新闻情感分析的效率和准确性,对新闻传播学和政治学研究具有深远的意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Awesome JSON Datasets

一个精选的无需认证的JSON数据集列表。

github 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录