five

strickvl/isafpressreleases

收藏
Hugging Face2024-06-15 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/strickvl/isafpressreleases
下载链接
链接失效反馈
官方服务:
资源简介:
ISAF新闻稿数据集包含了用于研究论文《A Knock on the Door: 22 Months of ISAF Press Releases》的数据。该数据集提供了国际安全援助部队(ISAF)在阿富汗从2009年12月1日至2013年2月21日期间发布的新闻稿的全面集合。这些新闻稿经过收集、处理和注释,以提取有关ISAF在此期间执行的击杀-捕获任务的信息。数据集提供了有关这些行动的性质和范围的宝贵见解,记录了ISAF在阿富汗活动的历史。它包含4822份新闻稿报告,每份报告都标注了事件的相关信息,包括日期、地点、目标群体以及被击杀或捕获的人数(如数据中所示)。数据集以单个Parquet文件的形式提供,没有预定义的分割。

ISAF新闻稿数据集包含了用于研究论文《A Knock on the Door: 22 Months of ISAF Press Releases》的数据。该数据集提供了国际安全援助部队(ISAF)在阿富汗从2009年12月1日至2013年2月21日期间发布的新闻稿的全面集合。这些新闻稿经过收集、处理和注释,以提取有关ISAF在此期间执行的击杀-捕获任务的信息。数据集提供了有关这些行动的性质和范围的宝贵见解,记录了ISAF在阿富汗活动的历史。它包含4822份新闻稿报告,每份报告都标注了事件的相关信息,包括日期、地点、目标群体以及被击杀或捕获的人数(如数据中所示)。数据集以单个Parquet文件的形式提供,没有预定义的分割。
提供机构:
strickvl
原始信息汇总

数据集概述

名称: ISAFpressreleases

语言: 英语

许可证: CC-BY-SA-4.0

多语言性: 单语

大小: 1K<n<10K

数据来源: 原始数据

任务类别:

  • 特征提取
  • 摘要生成
  • 问答
  • 文本分类
  • 填充掩码
  • 零样本分类

具体任务:

  • 命名实体识别
  • 主题分类
  • 新闻文章摘要

数据集特征

  • name: 字符串
  • eventrefnumber: 字符串
  • text: 字符串
  • StartDate: 时间戳[s]
  • eventtype: 字符串
  • province: 字符串
  • citydistrict: 字符串
  • village: 字符串
  • targetgroup: 字符串
  • commander: 字符串
  • position: 字符串
  • minkilled: 字符串
  • mincaptured: 字符串
  • capturedcharacterisation: 字符串
  • killedcharacterisation: 字符串
  • killq: 字符串
  • captureq: 字符串
  • killcaptureraid: 字符串
  • airstrike: 字符串
  • noshotsfired: 字符串
  • dataprocessed: 字符串
  • flagged: 字符串
  • glossarymeta: 字符串
  • minleaderskilled: 字符串
  • minfacilitatorskilled: 字符串
  • minleaderscaptured: 字符串
  • minfacilitatorscaptured: 字符串
  • leaderq: 字符串

数据集结构

  • 训练集: 3616个样本,3840026.2729158024字节
  • 测试集: 1206个样本,1280716.7270841973字节
  • 下载大小: 1781759字节
  • 数据集大小: 5120743.0字节

数据集创建

  • 采集理由: 提供ISAF在阿富汗的杀捕任务的全面公开记录,支持学者、法律团队等分析和理解这些行动的性质和范围。
  • 初始数据收集: 手动从ISAF网站复制新闻稿文本,时间范围为2009年12月1日至2013年2月21日。
  • 语言生产者: ISAF的新闻办公室和媒体关系团队。
  • 注释过程: 使用Tinderbox软件对每个新闻稿进行评估,包括基本数据、位置数据、目标数据和数值。
  • 注释者: Alex Strick van Linschoten和Felix Kuehn。

使用考虑

  • 社会影响: 提供ISAF活动的历史记录,支持对阿富汗历史的研究和理解。
  • 偏见讨论: 数据集反映了ISAF/NATO的观点和叙述,可能不全面或存在偏见。
  • 其他已知限制: 数据集可能不完整,对空袭的描述可能不准确,分类可能不一致。
搜集汇总
数据集介绍
main_image_url
构建方式
在军事行动数据研究领域,ISAF新闻稿数据集通过系统化的人工采集与标注流程构建而成。原始数据源自国际安全援助部队(ISAF)于2009年12月至2013年2月期间发布的官方新闻稿,由研究人员从ISAF网站逐篇手动复制并导入Tinderbox软件进行整理。随后,每篇新闻稿均经过专家细读与解析,依据预设变量框架提取关键信息,包括事件类型、地理位置、目标群体及伤亡人数等结构化字段。若单篇新闻稿涉及多起独立事件,则被拆分为独立条目,确保数据粒度的一致性。整个构建过程强调对原始文本的忠实保留,同时通过严谨的注释体系将非结构化内容转化为可供量化分析的结构化数据。
特点
该数据集以详实的历史记录与多维标注体系为显著特征,囊括了4822条ISAF在阿富汗执行任务的新闻稿,覆盖超过21个月的行动周期。每条数据均包含完整的新闻稿文本及25个结构化字段,如事件编号、发生日期、省份、目标组织、最小伤亡人数及行动类型布尔标识等,实现了对军事行动关键要素的系统化编码。数据呈现高度领域特异性,蕴含丰富的军事术语与阿富汗地理语境,为研究冲突报道、事件抽取与命名实体识别提供了珍贵语料。其标注逻辑注重对行动细节的刻画,例如通过“airstrike”“killcaptureraid”等字段精准捕捉战术特征,而“killedcharacterisation”等字段则保留了原文对伤亡情况的描述方式,兼顾了数据量化分析与文本语义保留的双重需求。
使用方法
该数据集适用于自然语言处理与社会科学交叉领域的多类任务,用户可通过HuggingFace平台直接加载Parquet格式文件进行访问。在技术应用层面,其结构化字段支持命名实体识别、事件抽取与文本分类等模型的训练与评估,例如利用“eventtype”“targetgroup”等标注进行事件类型分类,或基于“text”字段抽取伤亡相关实体。研究使用时,学者可结合“StartDate”“province”等时空字段进行历时性或地域性分析,探究军事行动的分布模式与叙事特征。需注意的是,数据本身反映了ISAF的单方视角,使用者应结合其标注说明与关联论文,审慎考量数据在覆盖完整性、术语一致性等方面的局限,避免过度解读。
背景与挑战
背景概述
在军事冲突研究与历史档案数字化领域,国际安全援助部队(ISAF)在阿富汗的行动记录具有重要的学术与史料价值。ISAF新闻稿数据集由研究员Alex Strick van Linschoten与Felix Kuehn于2011年创建,旨在系统整理2009年12月至2013年2月期间ISAF发布的4822份新闻稿,聚焦于‘杀伤-捕获’任务的详细记录。该数据集通过专家标注,提取了事件时间、地点、目标群体及伤亡人数等关键信息,为研究阿富汗冲突动态、军事行动模式及历史叙事提供了结构化数据基础,弥补了原始官网资料缺失的空白,成为跨学科分析的重要资源。
当前挑战
该数据集旨在解决军事文本中事件抽取与实体识别的复杂性问题,其核心挑战在于新闻稿语言常包含模糊表述、军事术语及非标准化描述,导致‘最低伤亡人数’等关键信息的标注存在主观性与不确定性。在构建过程中,研究者面临原始资料分散、多事件新闻稿需人工分割的困难,且标注工作依赖单一专家,可能引入一致性偏差。此外,数据源本身受ISAF官方视角局限,存在事件覆盖不全、空袭行动描述笼统等固有缺陷,这些因素共同制约了数据在全面反映战场实况方面的可靠性。
常用场景
经典使用场景
在军事冲突与安全研究领域,ISAFpressreleases数据集为分析国际安全援助部队在阿富汗的军事行动提供了关键文本资源。该数据集最经典的使用场景在于支持命名实体识别任务,研究者通过模型自动提取新闻稿中提及的人员伤亡、被俘数量及地理位置等实体信息,从而量化评估军事行动的规模与影响。这种应用不仅提升了信息提取效率,也为后续的统计分析奠定了数据基础。
解决学术问题
该数据集有效解决了军事历史与冲突研究中数据稀缺且分散的学术难题。通过系统化整理ISAF发布的新闻稿,研究者能够追溯特定时期内杀伤-捕获任务的详细记录,进而分析军事行动的频率、模式及演变趋势。这为探讨非对称战争中的战术选择、国际干预的合法性及人道影响等议题提供了实证依据,推动了安全研究从定性描述向定量分析的范式转变。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在事件抽取与文本分类方向。例如,研究者利用其标注信息训练模型,自动识别新闻稿中的军事事件类型(如空袭、地面行动),或对行动结果进行多标签分类。这些工作不仅优化了冲突文本的自动化处理流程,还催生了针对军事术语与地理实体的领域自适应方法,为后续的跨语言冲突档案分析提供了技术借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作