FRIDA synthetic dataset

Name: FRIDA synthetic dataset
Creator: 美国马里兰大学
Published: 2025-02-26 02:51:06
License: 暂无描述

arXiv2025-02-26 更新2025-02-27 收录

下载链接：

https://anonymous.4open.science/r/FRIDA-0215-D02A/

下载链接

链接失效反馈

官方服务：

资源简介：

FRIDA合成数据集是由马里兰大学等机构的研究人员创建的，针对灾害响应的对象基础常识推理任务。该数据集包含25000条合成指令，是通过领域专家和语言学家结合知识创建的种子指令生成的。数据集旨在提高小型语言模型在理解物理世界方面的能力，并专注于地震等灾害领域的特定知识和通用常识。

The FRIDA synthetic dataset was created by researchers from institutions including the University of Maryland, targeting the object-based commonsense reasoning task for disaster response. This dataset contains 25,000 synthetic instructions generated from seed instructions developed by domain experts and linguists through knowledge integration. The dataset aims to enhance the ability of small language models to understand the physical world, and focuses on domain-specific knowledge in disaster-related fields such as earthquakes as well as general commonsense.

提供机构：

美国马里兰大学

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

FRIDA synthetic dataset的构建方式是通过一个专家参与的流程，该流程结合了领域专家和语言学家的知识，以生成高质量的种子数据。这些种子数据随后被用于生成合成数据，用于微调较小的语言模型。研究者创建了130个用于合成生成的种子指令，一个包含25000个指令的合成数据集，以及119个与一般和地震特定物体属性相关的评估指令。该数据集是通过使用Gemini 1.5 Flash模型生成合成数据，并使用LLaMa和Mistral指令微调模型进行微调而构建的。

特点

FRIDA synthetic dataset的特点在于其专注于提高较小语言模型在灾难响应领域的物理常识推理能力。该数据集由专家知识驱动，确保了数据的质量和相关性。数据集包含了与常识和地震相关的指令，这些指令被设计为多选题，以提高模型的推理能力。此外，数据集还包括了一个独立的黄金标准评估数据集，用于评估模型的表现。通过消融研究，研究者发现训练物理状态和物体功能常识知识可以显著提高模型的表现。

使用方法

FRIDA synthetic dataset的使用方法包括使用该数据集对较小的语言模型进行微调，以提高它们在灾难响应领域的物理常识推理能力。研究者使用了LLaMa和Mistral指令微调模型进行微调，并通过消融研究探索了不同类型合成数据对模型性能的影响。此外，研究者还提供了FRIDA 1B、3B、Minstal 8B和LLaMa 8B模型，这些模型是在上述合成数据上训练的。为了更好地理解模型的表现，研究者使用了精确匹配和SemScore评估指标，这些指标可以评估模型在语义层面的表现。

背景与挑战

背景概述

FRIDA synthetic dataset 是一个用于对象基础常识推理的合成数据集，旨在帮助小型语言模型（LLMs）在灾难响应领域获得更好的物理世界理解能力。该数据集由来自马里兰大学、陆军研究实验室、橡树岭联合大学和马里兰大学巴尔的摩县的研究人员合作创建，并于2025年发表。该数据集的核心研究问题是如何通过合成数据提升小型LLMs在灾难响应领域的常识推理能力，以应对复杂和低频次的物理常识知识。FRIDA数据集的创建对相关领域产生了重要的影响，为小型LLMs在特定领域进行高效微调提供了新的思路和方法。

当前挑战

FRIDA synthetic dataset 面临的主要挑战包括：1) 小型LLMs在物理世界推理方面的能力限制，尤其是在缺乏大规模训练数据的情况下；2) 合成数据的质量和多样性，以确保训练出的模型能够有效理解和应对各种物理常识问题；3) 如何将特定领域的知识信息检索与FRIDA模型相结合，以进一步提高模型在特定领域的推理能力。

常用场景

经典使用场景

FRIDA synthetic dataset 是一个用于对象基础常识推理的合成数据集，特别是在灾难响应领域。该数据集通过结合领域专家和语言学家的知识，生成高质量的种子数据，进而生成合成数据，用于微调较小的语言模型。这些模型在灾难领域展现出优异的性能，为灾难响应提供了有效的工具。

衍生相关工作

FRIDA synthetic dataset 的研究成果为相关领域的研究提供了重要的参考。该数据集的生成方法和模型训练策略，为其他需要常识推理的应用场景提供了借鉴。此外，该数据集还揭示了合成数据在提高语言模型性能方面的潜力，为未来数据集的生成和模型训练提供了新的思路。

数据集最近研究