five

community-datasets/disaster_response_messages

收藏
Hugging Face2024-06-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/disaster_response_messages
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Disaster Response Messages,主要用于灾难响应相关的文本分析和自然语言处理任务。数据集包含多种语言的原始消息及其英文翻译,并且每条消息都被标注了40个不同的类别,用于描述消息的内容和意图。数据集的大小在10K到100K之间,包含训练集、测试集和验证集。数据集的创建目的是为了理解公民在灾难期间的情感和需求,帮助政府制定更好的政策。

该数据集名为Disaster Response Messages,主要用于灾难响应相关的文本分析和自然语言处理任务。数据集包含多种语言的原始消息及其英文翻译,并且每条消息都被标注了40个不同的类别,用于描述消息的内容和意图。数据集的大小在10K到100K之间,包含训练集、测试集和验证集。数据集的创建目的是为了理解公民在灾难期间的情感和需求,帮助政府制定更好的政策。
提供机构:
community-datasets
原始信息汇总

数据集卡片 - 灾难响应消息

数据集描述

数据集摘要

该数据集包含30,000条消息,来自2010年海地地震、2010年智利地震、2010年巴基斯坦洪水、2012年美国超级风暴桑迪等多个灾难事件。数据集包含36个与灾难响应相关的类别,并已去除包含敏感信息的消息。该数据集特别适用于文本分析和自然语言处理(NLP)任务和模型。

支持的任务和排行榜

数据集包含数千条未翻译的灾难相关消息及其英语翻译,以及40个用于意图和内容的类别标签。

语言

数据集是多语言的,包含原始语言和英语翻译的消息。

数据集结构

数据实例

数据集包含英语消息及其原始语言形式,以及40个标签,帮助理解消息的精确含义。

数据字段

  • split: 训练、测试分割
  • message: 灾难相关消息的英语文本
  • original: 原始语言的消息文本
  • genre: 消息类型,包括直接消息、社交媒体发布和新闻报道
  • related: 消息是否与灾难相关(1=是,0=否,2=可能)
  • PII: 消息是否包含个人身份信息(1=是,0=否)
  • request: 消息是否包含请求(1=是,0=否)
  • offer: 消息是否包含提供(1=是,0=否)
  • aid_related: 消息是否与援助相关(1=是,0=否)
  • medical_help: 消息是否涉及医疗帮助(1=是,0=否)
  • medical_products: 消息是否涉及医疗产品(1=是,0=否)
  • search_and_rescue: 消息是否涉及搜索和救援(1=是,0=否)
  • security: 消息是否涉及安全(1=是,0=否)
  • military: 消息是否涉及军事(1=是,0=否)
  • child_alone: 消息是否提及单独的儿童(1=是,0=否)
  • water: 消息是否涉及水(1=是,0=否)
  • food: 消息是否涉及食物(1=是,0=否)
  • shelter: 消息是否涉及避难所(1=是,0=否)
  • clothing: 消息是否涉及衣物(1=是,0=否)
  • money: 消息是否涉及金钱(1=是,0=否)
  • missing_people: 消息是否提及失踪人员(1=是,0=否)
  • refugees: 消息是否涉及难民(1=是,0=否)
  • death: 消息是否暗示死亡(1=是,0=否)
  • other_aid: 是否需要其他援助(1=是,0=否)
  • infrastructure_related: 消息是否涉及基础设施(1=是,0=否)
  • transport: 消息是否涉及交通(1=是,0=否)
  • buildings: 消息是否涉及建筑物(1=是,0=否)
  • electricity: 消息是否涉及电力(1=是,0=否)
  • tools: 消息是否涉及工具(1=是,0=否)
  • hospitals: 消息是否涉及医院(1=是,0=否)
  • shops: 消息是否涉及商店(1=是,0=否)
  • aid_centers: 消息是否涉及援助中心(1=是,0=否)
  • other_infrastructure: 消息是否涉及其他基础设施(1=是,0=否)
  • weather_related: 消息是否涉及天气(1=是,0=否)
  • floods: 消息是否指示洪水(1=是,0=否)
  • storm: 消息是否指示风暴(1=是,0=否)
  • fire: 消息是否指示火灾(1=是,0=否)
  • earthquake: 消息是否指示地震(1=是,0=否)
  • cold: 消息是否指示寒冷(1=是,0=否)
  • other_weather: 消息是否指示其他天气问题(1=是,0=否)
  • direct_report: 消息是否显示直接报告(1=是,0=否)

数据分割

分割 样本数量
train 21046
test 2629
validation 2573

数据集创建

策划理由

数据集旨在理解公民的情绪以及他们寻求的帮助类型,帮助政府更好地理解公民并制定相应政策。

源数据

初始数据收集和规范化

[更多信息需补充]

源语言生产者

[更多信息需补充]

注释

注释过程

[更多信息需补充]

注释者

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

数据集有助于理解全球灾难期间公民的情绪和反应,帮助政府更好地理解公民并制定相应政策。

偏见的讨论

由于消息已被翻译成英语,可能无法准确反映原始消息的精确含义。

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

数据集最初由Appen创建。

许可信息

[更多信息需补充]

引用信息

多语言灾难响应消息

贡献

感谢@darshan-gandhi添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作