RESPONSE
收藏arXiv2025-03-14 更新2025-03-18 收录
下载链接:
http://arxiv.org/abs/2503.11348v1
下载链接
链接失效反馈官方服务:
资源简介:
RESPONSE数据集是一个由伦敦大学学院创建的人类 curated 数据集,包含1789个经过注释的实例,涵盖6037组问题,旨在评估LLM在灾难情况下进行常识推理的能力。数据集包含问题描述、缺失资源、时间敏感的解决方案及其解释,其中一部分由环境工程师验证。该数据集主要用于评估LLM生成的建议与人类响应的对比,以解决灾难情况下的常识推理问题。
The RESPONSE Dataset is a human-curated dataset developed by University College London. It contains 1,789 annotated instances covering 6,037 question sets, and is designed to evaluate the common-sense reasoning capabilities of LLMs in disaster scenarios. The dataset includes problem descriptions, missing resources, time-sensitive solutions and their corresponding explanations, part of which have been verified by environmental engineers. This dataset is primarily used to compare the suggestions generated by LLMs with human responses for solving common-sense reasoning problems in disaster situations.
提供机构:
伦敦大学学院
创建时间:
2025-03-14
搜集汇总
数据集介绍

构建方式
RESPONSE数据集的构建过程始于从Incidents 1M数据集中筛选出与自然灾害相关的图像,并手动选择最具表现力的图像。随后,通过众包平台CloudConnect Research招募具有基本灾害场景知识的英语母语者进行标注。标注者需识别图像中的主要问题、缺失资源,并提供针对不同时间框架(立即、一周后、一个月后)的解决方案及其解释。为确保标注质量,环境工程师对部分样本进行了验证。最后,使用GPT-4生成自然语言问题,形成包含1789个标注实例的数据集。
特点
RESPONSE数据集的特点在于其专注于评估语言模型在灾害管理中的常识推理能力。数据集包含6037组问题,涵盖了多种自然灾害场景,并针对不同时间框架设计了问题。每个问题都附有标注者提供的问题描述、缺失资源、时间敏感解决方案及其解释。此外,数据集还包含GPT-4生成的图像描述,使其能够作为图像-文本或纯文本数据集使用。通过自动指标和人工评估,数据集能够有效衡量语言模型在灾害情境下的推理能力。
使用方法
RESPONSE数据集的使用方法主要包括评估语言模型在灾害管理中的常识推理能力。研究人员可以通过该数据集测试模型在识别问题、提出解决方案和解释推理过程方面的表现。具体而言,模型需回答与灾害相关的问题,并提供简短的解释。评估时,可以使用自动指标(如BLEU、BertScore)和人工评估相结合的方式,衡量模型生成的解决方案是否足够、有用且正确。此外,数据集还可用于研究模型在不同时间框架下的推理能力差异,以及其在资源管理和个体影响方面的表现。
背景与挑战
背景概述
RESPONSE数据集由伦敦大学学院的研究团队于2025年创建,旨在评估大型语言模型(LLMs)在自然灾害情境下的常识推理能力。该数据集包含1789个标注实例,涵盖了6037组问题,涉及不同时间框架下的灾害应对策略。研究团队通过自动指标和人工评估,比较了LLM生成的建议与人类响应的差异。研究结果表明,即使是GPT-4这样的先进模型,在即时响应行动中的正确率仅为37%,揭示了LLMs在危机情境下常识推理能力的显著不足。该数据集的创建为灾害管理领域提供了新的评估工具,推动了LLMs在复杂情境下的应用研究。
当前挑战
RESPONSE数据集在构建和应用过程中面临多重挑战。首先,灾害管理领域的常识推理问题具有高度的复杂性和多样性,LLMs需要在资源短缺、时间紧迫等动态条件下提供合理的解决方案,这对模型的推理能力提出了极高的要求。其次,数据集的构建依赖于人工标注,尽管标注过程经过环境工程师的验证,但人类决策的多样性和主观性可能导致标注结果的不一致性,进而影响模型评估的准确性。此外,现有的自动评估指标(如BLEU、BERTScore)在衡量LLMs生成的灾害管理建议时表现出局限性,无法有效捕捉解决方案的实际可行性和实用性,亟需开发更为精细的评估方法。
常用场景
经典使用场景
RESPONSE数据集主要用于评估大型语言模型(LLMs)在自然灾害情境下的常识推理能力。通过提供包含问题描述、缺失资源、时间敏感解决方案及其解释的标注实例,RESPONSE为研究者提供了一个基准,用于测试LLMs在灾难管理中的表现。该数据集特别关注LLMs在不同时间框架内(如立即、一周后、一个月后)的推理能力,帮助研究者理解模型在紧急情况下的决策质量。
解决学术问题
RESPONSE数据集解决了LLMs在灾难管理中的常识推理能力评估问题。通过对比LLMs生成的建议与人类响应,研究者能够量化模型在紧急情况下的表现差距。实验结果表明,即使是GPT-4这样的先进模型,在立即响应行动中的正确率仅为37%,揭示了LLMs在危机情境下的推理能力仍有显著提升空间。这一发现为未来模型优化提供了明确的方向,特别是在时间敏感和资源受限的情境下。
衍生相关工作
RESPONSE数据集衍生了一系列相关研究,特别是在LLMs的灾难管理能力评估方面。例如,基于RESPONSE的研究进一步探讨了LLMs在不同类型自然灾害中的表现差异,并提出了改进模型推理能力的新方法。此外,该数据集还激发了更多关于LLMs在时间敏感和资源受限情境下的研究,推动了灾难管理领域的技术进步。这些衍生工作不仅扩展了RESPONSE的应用范围,也为LLMs在复杂情境下的表现提供了更深入的理解。
以上内容由遇见数据集搜集并总结生成



