HUMVI

Name: HUMVI
Creator: 数据矿工公司, 不安全洞察, 西北大学
Published: 2024-10-09 05:08:13
License: 暂无描述

arXiv2024-10-09 更新2024-10-11 收录

下载链接：

https://github.com/dataminr-ai/humvidataset

下载链接

链接失效反馈

官方服务：

资源简介：

HUMVI数据集由数据矿工公司和不安全洞察合作创建，旨在通过分析多语言新闻文章来检测影响人道主义援助的暴力事件。该数据集包含17,497篇文章，涵盖英语、法语和阿拉伯语，每篇文章都被标记为相关性，并根据其影响的人道主义援助部门进行分类，如援助安全、教育、食品安全、健康和保护。数据集的创建过程包括与不安全洞察合作，通过人道主义专家验证标签，确保数据集的可靠性和实用性。该数据集主要应用于人道主义援助领域，旨在帮助决策者更好地理解和应对冲突环境中的人道主义需求。

The HUMVI dataset was developed in collaboration between Data Miner Company and Insecurity Insight, with the core objective of detecting violent incidents impacting humanitarian aid through the analysis of multilingual news articles. This dataset comprises 17,497 articles in English, French and Arabic. Each article is annotated for relevance and categorized based on the humanitarian aid sectors it affects, including aid security, education, food security, health and protection. The dataset creation process included label validation conducted by humanitarian experts in partnership with Insecurity Insight to ensure the dataset's reliability and practical value. Primarily utilized in the humanitarian aid domain, this dataset aims to assist policymakers in better understanding and addressing humanitarian needs in conflict settings.

提供机构：

数据矿工公司, 不安全洞察, 西北大学

创建时间：

2024-10-09

搜集汇总

数据集介绍

构建方式

HUMVI数据集通过与Insecurity Insight合作构建，该组织具备在人道主义领域应用和消费标记新闻文章的专业知识。数据集包含17,497篇新闻文章，涵盖英语、法语和阿拉伯语，每篇文章均标记其相关性，并在相关情况下分类为关键人道主义响应领域，如援助安全、教育、食品安全、健康和保护。标签由人道主义专家验证，确保数据集的可靠性和实用性。

特点

HUMVI数据集的显著特点包括其多语言覆盖（英语、法语和阿拉伯语）、人道主义专家验证的标签以及对多个关键人道主义响应领域的分类。此外，数据集还提供了扩展版本，增加了新的类别（食品安全）和新语言（法语和阿拉伯语），以应对实际挑战。这些特点使得HUMVI成为支持多语言模型开发和人道主义目的研究的宝贵资源。

使用方法

HUMVI数据集可用于训练和评估自然语言处理模型，以检测新闻文章中与暴力事件相关的信息，并将其分类到特定的人道主义响应领域。研究人员可以通过该数据集开发多语言模型，以应对资源受限环境中的实际挑战。此外，人道主义组织可以利用这些模型对实时新闻文章进行分类，并标记相关的人道主义援助领域，从而支持决策制定和响应规划。

背景与挑战

背景概述

HUMVI（Humanitarian Violent Incidents）数据集由Dataminr Inc.和Insecurity Insight合作创建，旨在通过分析多语言新闻文章，识别并分类对 humanitarian aid 产生直接影响和相关性的暴力事件。该数据集包含17,497篇新闻文章，涵盖英语、法语和阿拉伯语，并由 humanitarian experts 进行标注，确保标签的可靠性。HUMVI的创建填补了现有数据集在多语言和多类别事件检测方面的空白，特别关注于 aid security、education、food security、health 和 protection 等关键 humanitarian sectors。该数据集的发布旨在支持NLP研究者开发多语言模型，以应对 humanitarian 领域的实际挑战，提升 humanitarian organizations 的数据分析和决策能力。

当前挑战

HUMVI数据集面临的挑战主要包括两个方面：一是领域扩展的挑战，即如何将模型扩展到新的类别（如food security）和新语言（如法语和阿拉伯语），这在 humanitarian 领域尤为重要，因为信息通常以多种语言传播；二是数据标注的挑战，获取 humanitarian experts 的标注是一个关键难点，因为这需要专业的领域知识和大量的时间投入。此外，数据集的构建过程中还面临着数据来源的多样性和不均衡性问题，以及如何确保标注的一致性和准确性。这些挑战不仅影响了数据集的质量，也对模型的训练和性能提出了更高的要求。

常用场景

经典使用场景

HUMVI数据集的经典应用场景在于其能够通过自然语言处理技术，自动识别和分类多语言新闻文章中涉及的暴力事件，特别是那些直接影响人道主义援助的事件。该数据集涵盖了英语、法语和阿拉伯语，并标记了事件对人道主义援助领域的具体影响，如援助安全、教育、食品安全、健康和保护等。这种自动化的数据收集和分类框架，极大地提高了人道主义组织在危机响应中的效率和准确性。

解决学术问题

HUMVI数据集解决了当前公开数据集中存在的两个主要学术问题：一是大多数数据集仅关注单一类型的事件，如灾难相关信息或特定的人权捍卫者威胁，缺乏对多种暴力事件及其对人道主义援助领域影响的全面覆盖；二是现有数据集在语言多样性方面存在显著不足，主要集中在英语，限制了在多语言环境中的应用。HUMVI通过提供多语言和多类别的事件数据，填补了这一研究空白，推动了自然语言处理技术在人道主义领域的应用和发展。

衍生相关工作

HUMVI数据集的发布催生了一系列相关研究和工作，特别是在多语言自然语言处理和人道主义援助领域。例如，研究人员利用该数据集开发了新的多语言事件检测模型，以提高在非英语环境中的应用效果。此外，HUMVI还激发了对资源受限环境下模型扩展和适应性的研究，推动了在数据稀缺情况下如何有效利用和增强模型性能的方法论发展。这些衍生工作不仅提升了技术水平，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集