community-datasets/disaster_response_messages
收藏Hugging Face2024-06-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/disaster_response_messages
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Disaster Response Messages,主要用于灾难响应相关的文本分析和自然语言处理任务。数据集包含多种语言的原始消息及其英文翻译,并且每条消息都被标注了40个不同的类别,用于描述消息的内容和意图。数据集的大小在10K到100K之间,包含训练集、测试集和验证集。数据集的创建目的是为了理解公民在灾难期间的情感和需求,帮助政府制定更好的政策。
该数据集名为Disaster Response Messages,主要用于灾难响应相关的文本分析和自然语言处理任务。数据集包含多种语言的原始消息及其英文翻译,并且每条消息都被标注了40个不同的类别,用于描述消息的内容和意图。数据集的大小在10K到100K之间,包含训练集、测试集和验证集。数据集的创建目的是为了理解公民在灾难期间的情感和需求,帮助政府制定更好的政策。
提供机构:
community-datasets
原始信息汇总
数据集卡片 - 灾难响应消息
数据集描述
数据集摘要
该数据集包含30,000条消息,来自2010年海地地震、2010年智利地震、2010年巴基斯坦洪水、2012年美国超级风暴桑迪等多个灾难事件。数据集包含36个与灾难响应相关的类别,并已去除包含敏感信息的消息。该数据集特别适用于文本分析和自然语言处理(NLP)任务和模型。
支持的任务和排行榜
数据集包含数千条未翻译的灾难相关消息及其英语翻译,以及40个用于意图和内容的类别标签。
语言
数据集是多语言的,包含原始语言和英语翻译的消息。
数据集结构
数据实例
数据集包含英语消息及其原始语言形式,以及40个标签,帮助理解消息的精确含义。
数据字段
- split: 训练、测试分割
- message: 灾难相关消息的英语文本
- original: 原始语言的消息文本
- genre: 消息类型,包括直接消息、社交媒体发布和新闻报道
- related: 消息是否与灾难相关(1=是,0=否,2=可能)
- PII: 消息是否包含个人身份信息(1=是,0=否)
- request: 消息是否包含请求(1=是,0=否)
- offer: 消息是否包含提供(1=是,0=否)
- aid_related: 消息是否与援助相关(1=是,0=否)
- medical_help: 消息是否涉及医疗帮助(1=是,0=否)
- medical_products: 消息是否涉及医疗产品(1=是,0=否)
- search_and_rescue: 消息是否涉及搜索和救援(1=是,0=否)
- security: 消息是否涉及安全(1=是,0=否)
- military: 消息是否涉及军事(1=是,0=否)
- child_alone: 消息是否提及单独的儿童(1=是,0=否)
- water: 消息是否涉及水(1=是,0=否)
- food: 消息是否涉及食物(1=是,0=否)
- shelter: 消息是否涉及避难所(1=是,0=否)
- clothing: 消息是否涉及衣物(1=是,0=否)
- money: 消息是否涉及金钱(1=是,0=否)
- missing_people: 消息是否提及失踪人员(1=是,0=否)
- refugees: 消息是否涉及难民(1=是,0=否)
- death: 消息是否暗示死亡(1=是,0=否)
- other_aid: 是否需要其他援助(1=是,0=否)
- infrastructure_related: 消息是否涉及基础设施(1=是,0=否)
- transport: 消息是否涉及交通(1=是,0=否)
- buildings: 消息是否涉及建筑物(1=是,0=否)
- electricity: 消息是否涉及电力(1=是,0=否)
- tools: 消息是否涉及工具(1=是,0=否)
- hospitals: 消息是否涉及医院(1=是,0=否)
- shops: 消息是否涉及商店(1=是,0=否)
- aid_centers: 消息是否涉及援助中心(1=是,0=否)
- other_infrastructure: 消息是否涉及其他基础设施(1=是,0=否)
- weather_related: 消息是否涉及天气(1=是,0=否)
- floods: 消息是否指示洪水(1=是,0=否)
- storm: 消息是否指示风暴(1=是,0=否)
- fire: 消息是否指示火灾(1=是,0=否)
- earthquake: 消息是否指示地震(1=是,0=否)
- cold: 消息是否指示寒冷(1=是,0=否)
- other_weather: 消息是否指示其他天气问题(1=是,0=否)
- direct_report: 消息是否显示直接报告(1=是,0=否)
数据分割
| 分割 | 样本数量 |
|---|---|
| train | 21046 |
| test | 2629 |
| validation | 2573 |
数据集创建
策划理由
数据集旨在理解公民的情绪以及他们寻求的帮助类型,帮助政府更好地理解公民并制定相应政策。
源数据
初始数据收集和规范化
[更多信息需补充]
源语言生产者
[更多信息需补充]
注释
注释过程
[更多信息需补充]
注释者
[更多信息需补充]
个人和敏感信息
[更多信息需补充]
使用数据的注意事项
数据集的社会影响
数据集有助于理解全球灾难期间公民的情绪和反应,帮助政府更好地理解公民并制定相应政策。
偏见的讨论
由于消息已被翻译成英语,可能无法准确反映原始消息的精确含义。
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
数据集最初由Appen创建。
许可信息
[更多信息需补充]
引用信息
贡献
感谢@darshan-gandhi添加此数据集。



