five

frollo/ItalianCrimeNews

收藏
Hugging Face2022-06-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/frollo/ItalianCrimeNews
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含由名为Gazzetta di Modena的报纸在线发布的新闻文章的主要组成部分:网页的URL、标题、副标题、文本、发布日期以及作者为每篇新闻文章分配的犯罪类别。新闻文章用意大利语撰写,描述了2011年底至2021年间在摩德纳省发生的11种犯罪事件。此外,数据集还包括通过应用自然语言处理技术从上述组成部分中派生的数据,例如犯罪事件发生的地点(市镇、区域、地址和GPS坐标)、发生日期以及通过文本自动分类获得的犯罪事件类型。最后,通过计算文档相似性来检测描述相同犯罪事件的新闻文章(重复)。目前,我们正在应用问答技术提取5W+1H信息,并计划将获得的数据扩展到当前数据集中。其他研究人员可以使用该数据集应用其他文本分类和重复检测算法,并将其结果与基准进行比较。该数据集可用于多个领域,例如事件的地理定位、文本摘要、犯罪分析、犯罪预测、社区检测和主题建模。
提供机构:
frollo
原始信息汇总

数据集概述

数据集内容

  • 新闻来源:Gazzetta di Modena
  • 包含信息:网页URL、标题、副标题、正文、发布日期、作者分配的犯罪类别。
  • 语言:意大利语
  • 描述事件:2011年底至2021年间Modena省发生的11种犯罪事件。

数据集特点

  • 技术应用:应用自然语言处理技术提取的信息包括犯罪事件发生地点(市镇、区域、地址及GPS坐标)、发生日期、犯罪类型。
  • 重复检测:通过计算文档相似度检测描述相同犯罪事件的新闻文章。

数据集扩展计划

  • 未来工作:计划应用问答系统提取5W+1H信息,并扩展当前数据集。

数据集应用

  • 研究用途:可用于文本分类算法、重复检测算法的应用与比较。
  • 实际应用:地理定位事件、文本摘要、犯罪分析、犯罪预测、社区检测、主题建模。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作