five

aav-ds/Israel-HAMAS_war_news

收藏
Hugging Face2023-12-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aav-ds/Israel-HAMAS_war_news
下载链接
链接失效反馈
官方服务:
资源简介:
Israel-HAMAS war news数据集是一个关于以色列与哈马斯战争的英文新闻数据集,涵盖了2023年10月7日之后的事件。数据集收集了来自BBC、The Times of Israel、Al Jazeera、Al Mayadeen、WAFA News Agency和CNN的新闻。数据集用于文本分类和文本生成任务,特别是情感分析和语义相似性分类。数据集的创建目的是为了解决关于亲以色列和反以色列态度的情感分析任务的数据标注问题。数据集中的所有文本均为英文。

Israel-HAMAS war news数据集是一个关于以色列与哈马斯战争的英文新闻数据集,涵盖了2023年10月7日之后的事件。数据集收集了来自BBC、The Times of Israel、Al Jazeera、Al Mayadeen、WAFA News Agency和CNN的新闻。数据集用于文本分类和文本生成任务,特别是情感分析和语义相似性分类。数据集的创建目的是为了解决关于亲以色列和反以色列态度的情感分析任务的数据标注问题。数据集中的所有文本均为英文。
提供机构:
aav-ds
原始信息汇总

数据集概述

数据集摘要

"Israel-HAMAS war news" 数据集是一个关于以色列与哈马斯战争的英文新闻数据集,收集了自2023年10月7日“黑色星期六”大规模杀害以色列平民事件后的新闻报道。数据来源包括BBC、The Times of Israel、Al Jazeera、Al Mayadeen、WAFA新闻机构和CNN。

支持的任务和排行榜

该数据集支持的任务包括:

  • 情感分类
  • 语义相似性分类

数据集的设计目的是微调大型语言模型(LLMs)进行新闻情感分析,特别是关于亲以色列和反以色列的态度。数据标注的主要挑战是通过假设新闻来源的立场来克服的。

语言

数据集中的文本为英文,对应的BCP-47代码为en

数据结构

数据实例

json { "url": "https://www.timesofisrael.com/liveblog_entry/man-arrested-in-death-of-jewish-protester-during-dueling-california-rallies-over-war/", "datetime": "2023-11-16T18:36:15", "title": "Man arrested in death of Jewish protester during dueling California rallies over war", "text": "California authorities say they have arrested a man in connection with the death of a Jewish protester during demonstrations over the Israel-Hamas war. The Ventura County Sheriff’s Office says the 50-year-old suspect was arrested today and will be booked into jail in the investigation of involuntary manslaughter — the unintentional killing of another person. The district attorney will decide whether there is enough evidence to bring a formal charge. Paul Kessler, 69, died early November 6 at a hospital following a November 5 confrontation with a pro-Palestinian demonstrator in Thousand Oaks, a suburb northwest of Los Angeles. Sheriff Jim Fryhoff said subsequently that deputies determined Kessler had fallen backward and struck his head on the ground. The pro-Palestinian demonstrator stayed at the scene and told deputies he had called 911, Fryhoff said.", "provider": "The Times of Israel", "source": "site-live-news" }

数据字段

  • url - 新闻链接
  • datetime - 新闻日期和时间(格式为YYYY-mm-ddTHH:MM:SS)
  • title - 新闻标题
  • text - 新闻文本
  • provider - 新闻提供者,可能的值包括BBC, The Times of Israel, Al Jazeera, Al Mayadeen, WAFA News Agency, 和 CNN
  • source - 新闻收集来源

数据集创建

策划理由

该数据集的创建是为了解决情感分析任务中关于亲以色列和反以色列态度的数据标注问题。通过假设新闻来源的立场来简化标注过程。

源数据

数据集的来源是新闻机构的官方网站,包括:

  • BBC
  • The Times of Israel
  • Al Jazeera
  • Al Mayadeen
  • WAFA新闻机构
  • CNN

初始数据收集和规范化

数据是通过对新闻机构官方网站的适当部分进行网络爬虫获取的。

注释

数据集不包含任何额外的注释。

个人和敏感信息

新闻作者的信息已被移除。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对以色列与哈马斯战争相关新闻的收集与整合。具体操作上,数据采集者利用Beautiful Soup库从多个新闻机构的官方网站上抓取新闻内容,包括BBC、The Times of Israel、Al Jazeera等,时间跨度从2023年9月至11月。对于BBC、WAFA和Al Mayadeen网站,采集者使用简单的GET请求,而对于其他网站,则采用了Selenium工具。所收集的新闻内容经过初步的整理与规范化处理,形成了包含新闻链接、时间、标题、正文、提供者和来源等字段的数据集。
特点
该数据集的特点在于其专注于以色列与哈马斯战争相关的新闻报道,覆盖了多个新闻机构的视角,从而为研究该事件提供了多样化的信息来源。数据集以英语为主要语言,包含的新闻内容在时间上具有一定的连续性,能够反映事件的发展脉络。此外,数据集的构建考虑了新闻的情感倾向,尽管没有显式的标注,但根据新闻来源的不同,可以推测其大致的立场。
使用方法
使用该数据集时,用户首先需要了解数据集中的字段结构,包括新闻的URL、时间、标题、正文、提供者和来源等。用户可以根据具体的任务需求,如文本分类或情感分析,对数据集进行预处理和标注。由于数据集涵盖了不同立场的新闻报道,它适用于训练和评估模型在处理具有情感倾向文本方面的性能。用户在利用此数据集时,应确保遵守相关法律法规,并尊重新闻内容的版权和隐私权益。
背景与挑战
背景概述
以色列与哈马斯战争新闻数据集(Israel-HAMAS war news)是在2023年10月7日大规模平民谋杀事件后,针对以色列与哈马斯冲突的新闻报道所构建的数据集。该数据集由亚历山大·阿克特罗夫(Alexander Akhterov)负责,主要收集了来自BBC、The Times of Israel、Al Jazeera、Al Mayadeen、WAFA新闻社以及CNN的英文新闻报道,总计超过一万三千条。该数据集的创建旨在解决情感分析任务中的数据标注问题,尤其是关于亲以色列和反以色列态度的新闻报道。数据集的构建为相关领域的研究提供了宝贵的资源,对于理解新闻报道中的偏见和立场具有重要价值。
当前挑战
该数据集在构建过程中遇到了多个挑战。首先,由于新闻报道的立场偏见,标注工作面临困难,尤其是在区分亲以色列和反以色列的报道上。其次,数据收集过程中涉及到的网页抓取技术需要应对不同新闻网站的结构差异。此外,数据集中可能包含个人敏感信息,如新闻作者信息,需在数据预处理中去除。在研究领域问题方面,如何准确地进行情感分类,以及如何处理新闻报道中的主观偏见,是该数据集面临的两大挑战。
常用场景
经典使用场景
在自然语言处理领域,aav-ds/Israel-HAMAS_war_news数据集的经典使用场景主要在于对新闻文本进行情感分析,尤其是针对以色列与哈马斯战争报道中的亲以色列或反以色列态度进行分类。该数据集通过收集不同新闻来源的相关报道,为模型训练提供了丰富的文本素材。
实际应用
在实际应用中,aav-ds/Israel-HAMAS_war_news数据集可以帮助新闻聚合平台自动分类报道的政治倾向,协助用户快速识别信息源的政治立场,从而为用户提供更加个性化的新闻阅读体验。
衍生相关工作
基于该数据集,研究者可以进一步开展诸如媒体偏见分析、冲突事件舆情监测等相关工作,衍生出一系列具有学术价值和实际应用潜力的研究成果。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作