FirstAidQA

Name: FirstAidQA
Creator: 伊斯兰技术大学达卡分校
Published: 2025-11-03 15:14:45
License: 暂无描述

arXiv2025-11-03 更新2024-10-17 收录

下载链接：

https://huggingface.co/

下载链接

链接失效反馈

官方服务：

资源简介：

FirstAidQA 是一个针对急救和紧急响应的低连通性环境设计的合成数据集，包含 5500 个高质量的问答对，涵盖了广泛的急救和紧急响应场景。该数据集由 ChatGPT-4o-mini 大型语言模型生成，并经过预处理步骤和人工验证，以确保问答对的准确性、安全性和实用性。FirstAidQA 旨在支持 LLM 和 SLM 的指令微调和微调，使系统能够在紧急情况下更快、更可靠地运行。该数据集已在 Hugging Face 上公开发布，以推动急救和紧急响应领域安全关键且资源受限的 AI 应用研究。

FirstAidQA is a synthetic dataset designed for low-connectivity environments focused on first aid and emergency response. It comprises 5,500 high-quality question-answer pairs covering a wide range of first aid and emergency response scenarios. This dataset was generated by the ChatGPT-4o-mini large language model (LLM), and underwent preprocessing steps and manual verification to ensure the accuracy, safety, and practicality of the question-answer pairs. FirstAidQA aims to support instruction tuning and fine-tuning of both LLMs and small language models (SLMs), enabling systems to operate faster and more reliably in emergency situations. This dataset has been publicly released on Hugging Face to advance research on safety-critical and resource-constrained AI applications in the field of first aid and emergency response.

提供机构：

伊斯兰技术大学达卡分校

创建时间：

2025-11-03

搜集汇总

数据集介绍

构建方式

LADaS 2.0数据集的构建基于SegmOnto控制词汇和语法，旨在通过与Text Encoding Initiative (TEI)标准的映射，支持文档重建工作流程。该数据集涵盖了从1600年至2024年的7,254个标注页面，跨越了广泛的文档类型，包括杂志、科学和人文领域的论文、博士论文、专著、剧本和行政报告等。通过整合不同历史时期和类型的内容，数据集解决了文档布局复杂性和历史结构变化的多样性。其模块化设计允许根据特定领域的需求进行配置，并评估了对象检测模型在该数据集上的表现，特别是输入尺寸和基于子集的训练的影响。

特点

LADaS 2.0数据集的显著特点在于其时间跨度和内容多样性，涵盖了从17世纪到现代的文档，包括印刷和数字生成的材料。数据集包含了36个不同的类别，分为13个主要类型，旨在捕捉文档在时间上的多面性。此外，数据集还提供了丰富的元数据，包括每个图像的详细来源信息、子集分类和出版日期，使用户能够根据不同的研究目标和期望动态地重新组织和过滤数据集。这种设计不仅增强了数据集的灵活性，还提高了其在不同研究场景中的适用性。

使用方法

LADaS 2.0数据集适用于多种文档布局分析任务，特别是那些需要处理复杂历史文档和不同类型文档的研究。用户可以通过HuggingFace平台访问该数据集，并利用其丰富的元数据进行定制化的数据处理和模型训练。数据集的模块化设计允许用户根据特定需求选择和组合不同的子集，从而优化模型训练效果。此外，数据集还支持对象检测模型的评估和比较，特别是YOLO系列模型，通过不同输入尺寸和子集训练策略的实验，展示了数据集在提升模型性能方面的潜力。

背景与挑战

背景概述

LADaS 2.0数据集是由Inria等机构的研究人员开发的一个开放访问数据集，旨在支持语义布局分析，特别是通过与Text Encoding Initiative (TEI)标准的映射来支持文档重建工作流程。该数据集包含7,254个标注页面，跨越了1600至2024年的广泛时间范围，涵盖了多种文档类型，如杂志、科学和人文学科的论文、博士论文、专著、剧本和行政报告等。通过整合不同时期和类型的内容，LADaS 2.0数据集解决了文档布局复杂性和历史结构变化的多样性问题。其模块化设计允许领域特定的配置，为对象检测模型提供了丰富的评估资源。

当前挑战

LADaS 2.0数据集在构建过程中面临多个挑战。首先，数据集需要处理从17世纪到21世纪的文档，这些文档在布局和结构上存在显著的时间差异。其次，数据集的模块化设计要求对不同子集进行精细的标注，以确保在不同领域和时间段内的适用性。此外，数据集的构建还需要克服非数字原生文档的全面覆盖问题，以及在文化遗产和数字人文领域中重建多样化材料的持续挑战。最后，数据集的评估和扩展需要对现有的布局分析方法和模型进行严格的测试和优化，以确保其在实际应用中的有效性和适应性。

常用场景

经典使用场景

LADaS 2.0数据集在语义布局分析领域中被广泛应用于文档重建工作流程。通过与Text Encoding Initiative (TEI)标准的映射，该数据集支持对文档进行精细的语义标注，从而实现文档的数字化重建。其模块化设计允许根据特定领域的需求进行定制配置，特别是在处理历史文档和多类型文档时，能够有效应对布局复杂性和历史变迁带来的挑战。

衍生相关工作

LADaS 2.0数据集的发布催生了一系列相关研究工作。例如，基于该数据集的文档布局分析模型在多个国际会议和期刊上得到了广泛讨论和应用。此外，数据集的模块化设计和丰富的元数据支持，激发了更多针对特定领域和历史时期的深入研究。这些衍生工作不仅提升了文档布局分析的准确性和效率，还推动了数字人文领域的技术进步。

数据集最近研究