nlp-thedeep/humset
收藏Hugging Face2023-05-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nlp-thedeep/humset
下载链接
链接失效反馈官方服务:
资源简介:
HumSet是一个新颖且丰富的多语言人道主义响应文档数据集,由人道主义响应社区的专家进行注释。该数据集由人道主义分析师策划,涵盖了2018年至2021年全球范围内的46个人道主义响应项目。数据集包含大约17K个注释文档,涉及英语、法语和西班牙语三种语言,原始数据来自公开资源。对于每个文档,分析师根据常见的人道主义框架识别了信息片段(条目),并为每个条目分配了一个或多个类别。
HumSet is a novel and comprehensive multilingual humanitarian response document dataset, annotated by experts from the humanitarian response community. This dataset was curated by humanitarian analysts and covers 46 global humanitarian response projects spanning from 2018 to 2021. The dataset contains approximately 17K annotated documents in three languages: English, French, and Spanish, with the original data sourced from public resources. For each document, analysts identified information segments (entries) based on common humanitarian frameworks and assigned one or more categories to each entry.
提供机构:
nlp-thedeep
原始信息汇总
数据集概述
名称: HumSet
语言: 英语、法语、西班牙语
许可证: Apache-2.0
多语言性: 多语言
大小: 100K<n<1M
来源: 原始数据
标签:
- 人道主义
- 研究
- 分析框架
- 多标签
- humset
- humbert
任务类别:
- 文本分类
- 文本检索
- 令牌分类
任务ID:
- 多标签分类
数据集结构
数据实例
- 训练集: 117435个实例
- 验证集: 16039个实例
- 测试集: 15147个实例
数据字段
- entry_id: 字符串
- lead_id: 字符串
- project_id: 字符串
- lang: 字符串
- n_tokens: int64
- project_title: 字符串
- created_at: 字符串
- document: 字符串
- excerpt: 字符串
- sectors: 序列,类别标签包括:农业、交叉、教育、食品安全、健康、生计、物流、营养、保护、住所、WASH
- pillars_1d: 序列,类别标签包括:伤亡、背景、Covid-19、流离失所、人道主义访问、信息和通信、冲击/事件
- pillars_2d: 序列,类别标签包括:风险、能力与响应、人道主义条件、影响、优先干预、优先需求
- subpillars_1d: 序列,类别标签包括:伤亡->死亡、伤亡->受伤、伤亡->失踪、背景->人口统计、背景->经济、背景->环境、背景->法律与政策、背景->政治、背景->安全与稳定、背景->社会文化、Covid-19->案例、Covid-19->接触追踪、Covid-19->死亡、Covid-19->住院与护理、Covid-19->限制措施、Covid-19->测试、Covid-19->疫苗接种、流离失所->意图、流离失所->本地融合、流离失所->吸引因素、流离失所->推动因素、流离失所->类型/数量/移动、人道主义访问->面临人道主义访问限制/人道主义访问差距的人数、人道主义访问->物理限制、人道主义访问->人口到救援、人道主义访问->救援到人口、信息和通信->通信方式和偏好、信息和通信->信息挑战和障碍、信息和通信->知识与信息差距(人道)、信息和通信->知识与信息差距(人口)、冲击/事件->危险与威胁、冲击/事件->类型与特征、冲击/事件->潜在/加剧因素
- subpillars_2d: 序列,类别标签包括:风险->风险人数、风险->风险与脆弱性、能力与响应->国际响应、能力与响应->本地响应、能力与响应->国家响应、能力与响应->达到/响应差距的人数、人道主义条件->应对机制、人道主义条件->生活标准、人道主义条件->需要帮助的人数、人道主义条件->身体与心理健康、影响->驱动/加剧因素、影响->对人的影响、影响->对系统、服务和网络的影响、影响->受影响人数、优先干预->人道主义工作人员表达、优先干预->人口表达、优先需求->人道主义工作人员表达、优先需求->人口表达
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



