five

CrisisHelpOffer

收藏
arXiv2025-02-24 更新2025-02-27 收录
下载链接:
http://arxiv.org/abs/2502.16839v1
下载链接
链接失效反馈
官方服务:
资源简介:
CrisisHelpOffer是一个由101000条推文组成的大型、高质量标注数据集,由生成式大型语言模型进行初步标注,并由人工进行验证,旨在识别危机期间社交媒体上分享的可操作请求和援助。该数据集由四个生成式LLM模型进行标注,通过人类验证以确保标注的一致性和可靠性。

CrisisHelpOffer is a large, high-quality labeled dataset comprising 101,000 Tweets. It was initially annotated by four generative large language models and subsequently verified by human annotators, with the primary goal of identifying actionable requests and aid shared on social media during crises. Human validation was performed to ensure the consistency and reliability of the annotation results.
提供机构:
The University of Melbourne, Australia; Qatar Computing Research Institute, Qatar
创建时间:
2025-02-24
搜集汇总
数据集介绍
main_image_url
构建方式
CrisisHelpOffer数据集的构建采用了多轮生成式大型语言模型(LLM)进行初步标注,并由人工验证以保证数据的一致性和可靠性。该数据集专注于识别危机期间社交媒体上分享的可执行内容,即明确的请求和援助。数据集由101k条推文组成,通过LLM和人工标注者的协作,确保了数据的准确性和多样性。
特点
CrisisHelpOffer数据集的特点在于其专注于危机期间社交媒体上的可执行内容,包括请求和援助。该数据集通过生成式LLM进行初步标注,并经过人工验证,确保了数据的质量和可靠性。此外,CrisisHelpOffer数据集还支持多种危机分类任务,包括请求、援助、无关内容和同时包含请求和援助的内容。
使用方法
使用CrisisHelpOffer数据集的方法包括:1. 数据预处理:对推文进行文本预处理,包括替换URL、@提及、HTML实体等。2. 模型训练:使用CrisisHelpOffer数据集训练分类模型,如BERT、RoBERTa等。3. 模型评估:使用CrisisHelpOffer数据集评估模型的性能,包括准确率、召回率等指标。4. 模型部署:将训练好的模型部署到实时危机响应系统中,以识别和匹配请求和援助。
背景与挑战
背景概述
在危机期间,社交媒体作为关键的协调工具发挥着重要作用,但大量涌入的帖子——从具有行动性的请求和提供,到一般的情绪支持、行为指导或过时信息——使得有效的分类变得复杂。为了应对这些挑战,研究人员创建了CrisisHelpOffer数据集,这是一个包含101k条推文的数据集,这些推文由生成式大型语言模型(LLM)协同标注并由人类验证,旨在区分行动性内容和非行动性内容。该数据集由澳大利亚墨尔本大学和卡塔尔计算研究所的研究人员创建,旨在解决危机信息学领域中准确识别和匹配社交媒体上的请求和提供这一难题。CrisisHelpOffer数据集的创建对危机响应和资源分配具有重要意义,为更有效的救援行动提供了有力支持。
当前挑战
CrisisHelpOffer数据集面临的主要挑战包括:1) 准确识别具有行动性的帖子(明确的求助或提供援助的帖子)与非行动性帖子(如情绪支持、一般信息或过时信息)的挑战;2) 构建过程中所遇到的挑战,例如,现有的分类模型在资源受限的环境下具有较高的推理时间,难以满足实时危机响应的需求。为了应对这些挑战,研究人员提出了针对危机领域的微型模型,这些模型在保持高准确性的同时,具有显著较小的尺寸和更快的速度,能够在资源受限的环境下实现实时处理。
常用场景
经典使用场景
CrisisHelpOffer 数据集主要用于危机期间社交媒体文本的分类,特别是在区分有效帮助请求和无效内容方面。该数据集包含 101k 条推文,由生成式大型语言模型进行初步标注,并由人工验证,以确保准确性和可靠性。通过关注明确的可操作内容,CrisisHelpOffer 为训练分类模型提供了一个坚实的基础,这些模型可以有效地过滤噪声,并优先处理与危机响应相关的帖子。
衍生相关工作
CrisisHelpOffer 数据集衍生了一系列相关工作,包括:1. 针对危机文本的微型模型,这些模型在资源受限的环境中具有更高的效率,同时保持了较高的分类准确性。2. 危机领域特定的小型模型,这些模型在 13 个危机分类任务中优于 BERTbase,提供了更高的准确性和更快的速度。3. 基于 CrisisHelpOffer 数据集的训练模型,这些模型在多个危机分类任务中表现出色,为危机信息学领域提供了新的基准。
数据集最近研究
最新研究方向
在危机管理领域,CrisisHelpOffer数据集的研究方向集中于利用社交媒体数据来提高危机响应的效率。该数据集通过区分可操作的请求和提供信息,以及过滤掉无关内容,为危机响应提供了有力支持。同时,研究还关注如何优化模型,使其在资源受限的环境下也能快速运行。为此,研究人员提出了针对危机领域的小型模型,这些模型在保证准确性的同时,显著减小了模型尺寸和提高了运行速度。此外,研究还通过案例研究分析了社交媒体帖子,以探索在不同国家和特定资源类型(如金钱、志愿者、避难所和食物)中寻求帮助和提供援助的行为。
相关研究论文
  • 1
    "Actionable Help" in Crises: A Novel Dataset and Resource-Efficient Models for Identifying Request and Offer Social Media PostsThe University of Melbourne, Australia; Qatar Computing Research Institute, Qatar · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作