Synthetic QnA Dataset

github2024-07-14 更新2024-07-15 收录

下载链接：

https://github.com/daekeun-ml/synthetic-qa-generation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从各种格式的真实世界原始数据（如pdf、csv和txt）中创建的合成问答数据集，用于模型微调和评估。

This synthetic question answering (QA) dataset is constructed from real-world raw data in diverse formats including PDF, CSV, and TXT, and is intended for model fine-tuning and evaluation.

创建时间：

2024-07-13

原始信息汇总

合成QnA数据集生成

概述

本数据集旨在从复杂的非结构化数据中创建或增强QnA数据集，适用于LLM/SLM微调、RAG或评估。数据集的构建分为两个阶段：种子数据集构建和数据增强（可选）。

场景

概述

目标是通过微调/RAG（检索增强生成）提高模型性能，但提供的原始数据为未处理的PDF、CSV和TXT格式，包含图像、表格和文本。

阶段1. 构建种子数据集

任务是将这些异构数据预处理并转换为适合微调或RAG的结构化格式。这包括从各种文件格式中提取和清洗文本，必要时使用Azure AI服务将表格和图像转换为文本。

阶段2. 数据增强（可选）

在微调生成的数据集后，若性能仍需提升（例如数据集仅有1,000个样本），可通过应用数据增强技术创建合成数据集。数据增强技术包括Evol-Instruct、GLAN（广义指令调优）和Auto Evol-Instruct。

内容

阶段1. 构建种子数据集

make_qa_multimodal_pdf_docai.ipynb: 推荐使用，从复杂PDF生成QnA合成数据集。
make_qa_multimodal_pdf_oss.ipynb: 使用开源工具生成QnA合成数据集。
make_qa_only_image_multiple_pdf.ipynb: 从多PDF（图像密集）生成QnA合成数据集。
make_qa_only_image_pdf.ipynb: 从单PDF（图像密集）生成QnA合成数据集。
make_qa_csv.ipynb: 从CSV文件生成QnA数据集。
make_qa_image_url_csv.ipynb: 从包含图像URL信息的CSV文件生成QnA数据集。

阶段2. 数据增强（可选）

Evolve-Instruct: 基于阶段1创建的种子数据集进行数据增强。
GLAN (Generalized Instruction Tuning): 广义指令调优，可独立于阶段1进行。
Auto Evolve-Instruct - 开发中

参考文献

Evolve-Instruct: https://arxiv.org/pdf/2304.12244
GLAN (Generalized Instruction Tuning): https://arxiv.org/pdf/2402.13064
Auto Evolve-Instruct: https://arxiv.org/pdf/2406.00770

许可证

本示例代码基于MIT-0许可证提供。详见LICENSE文件。

搜集汇总

数据集介绍

构建方式

在构建Synthetic QnA Dataset时，首先从多种格式的原始数据（如PDF、CSV和TXT）中提取和清洗文本，必要时利用Azure AI Services将表格和图像转换为文本格式。这一过程旨在将异构数据转化为适合微调或RAG的结构化数据集。随后，通过应用Evol-Instruct、GLAN等数据增强技术，进一步丰富和复杂化数据集，以提升模型在特定领域的表现。

特点

Synthetic QnA Dataset的主要特点在于其高度定制化和复杂性。数据集不仅涵盖了从多种原始数据格式中提取的丰富信息，还通过数据增强技术生成了高质量的合成数据。此外，该数据集特别适用于需要从零开始构建数据集的场景，如LLM/SLM的微调、RAG或评估，且能够显著提升模型在特定领域的表现。

使用方法

使用Synthetic QnA Dataset时，用户需首先访问Azure OpenAI Service并创建Azure AI Studio项目。接着，根据数据集的构建阶段，选择合适的Jupyter Notebook进行数据处理和模型训练。对于数据增强阶段，用户可选择Evol-Instruct或GLAN进行进一步的微调。此外，用户可根据实际需求选择在Azure AI Studio、GitHub Codespace或本地PC上进行操作。

背景与挑战

背景概述

在自然语言处理（NLP）领域，大规模语言模型（LLM）和自监督学习模型（SLM）的微调、检索增强生成（RAG）或评估过程中，生成符合Q&A格式的数据集是至关重要的。Synthetic QnA Dataset数据集由微软研究院于2024年创建，旨在解决从复杂非结构化数据中生成高质量Q&A数据集的问题。该数据集的核心研究问题是如何有效地从PDF、CSV和TXT等异构数据源中提取、清洗并转换数据，以支持模型的微调或RAG应用。通过提供一个逐步指导的实验环境，该数据集不仅为开发者提供了实用的工具，还为NLP领域的研究提供了新的数据资源。

当前挑战

Synthetic QnA Dataset在构建过程中面临多重挑战。首先，从异构数据源中提取和清洗数据是一个复杂的过程，涉及多种文件格式的处理，如PDF、CSV和TXT，这需要高效的文本提取和数据清洗技术。其次，数据集的初始规模较小，仅有1000个样本，这限制了模型的性能提升。为应对这一挑战，数据集采用了数据增强技术，如Evol-Instruct和GLAN，以生成更多高质量的合成数据。此外，数据集的生成过程依赖于Azure AI服务，这要求用户具备相应的技术能力和资源访问权限。

常用场景

经典使用场景

在自然语言处理领域，合成问答数据集（Synthetic QnA Dataset）常用于大型语言模型（LLM）或小型语言模型（SLM）的微调、检索增强生成（RAG）或评估。该数据集通过从复杂的非结构化数据中生成问答对，为模型训练提供了高质量的输入。特别是在缺乏现成数据集的情况下，合成问答数据集能够有效提升模型的性能，尤其是在处理多模态数据（如PDF、CSV、TXT文件中的图像、表格和文本）时，其作用尤为显著。

衍生相关工作

合成问答数据集的开发和应用催生了一系列相关研究和工作。例如，Evol-Instruct和GLAN（广义指令调优）等数据增强技术，通过生成更复杂、更高质量的数据，显著提升了模型的性能。此外，Auto Evol-Instruct等自动化工具的出现，进一步简化了数据生成和模型微调的过程，推动了自然语言处理技术的实际应用和发展。这些衍生工作不仅丰富了数据集的应用场景，也为相关领域的研究提供了新的思路和方法。

数据集最近研究