synthetic-qa-generation

github2024-07-26 更新2024-07-27 收录

下载链接：

https://github.com/Azure/synthetic-qa-generation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在从复杂的非结构化数据中创建和增强QnA数据集，适用于LLM/SLM微调、RAG或评估。数据集包括从多种文件格式（如PDF、CSV、TXT）中提取和清理文本，以及将表格和图像转换为文本。

This dataset is designed to create and augment QnA datasets from complex unstructured data, and is tailored for LLM/SLM fine-tuning, RAG or evaluation. It comprises text extraction and cleaning from multiple file formats including PDF, CSV, TXT, as well as conversion of tables and images into text.

创建时间：

2024-07-25

原始信息汇总

合成问答数据集生成

概述

本数据集旨在从复杂的非结构化数据中创建或增强问答（Q&A）数据集，适用于大型语言模型（LLM）或序列到序列模型（SLM）的微调、检索增强生成（RAG）或评估。数据集的构建和增强过程分为两个阶段。

场景

阶段1：构建种子数据集

任务是从PDF、CSV和TXT等格式的原始数据中预处理和转换为适合微调或RAG的结构化格式。这包括从各种文件格式中提取和清洗文本，必要时使用Azure AI服务将表格和图像转换为文本。

具体步骤

PDF处理：
- make_qa_multimodal_pdf_docai.ipynb：使用Azure AI Document Intelligence从复杂PDF生成Q&A数据集（推荐）。
- make_qa_multimodal_pdf_oss.ipynb：使用开源工具从复杂PDF生成Q&A数据集。
- make_qa_only_image_multiple_pdf.ipynb：从多图像PDF生成Q&A数据集。
- make_qa_only_image_pdf.ipynb：从单图像PDF生成Q&A数据集。
CSV处理：
- make_qa_csv.ipynb：通过CSVLoader读取和分块生成Q&A数据集。
- make_qa_image_url_csv.ipynb：包含图像URL信息的CSV生成Q&A数据集。

阶段2：数据增强（可选）

在种子数据集基础上，使用数据增强技术如Evol-Instruct、GLAN（广义指令调优）和Auto Evol-Insruct来提升性能。

具体步骤

Evolve-Instruct：基于阶段1创建的种子数据集进行数据增强。
GLAN（广义指令调优）：可独立于阶段1进行，适用于所有广义领域。

客户应用示例

通过GPT-4o的微调，对比了相似性、连贯性和流畅性三个指标的改进，结果显示在Azure AI Studio中，指标值在1-5分制上有所提升。

参考文献

Evolve-Instruct: https://arxiv.org/pdf/2304.12244
GLAN (Generalized Instruction Tuning): https://arxiv.org/pdf/2402.13064
Auto Evolve-Instruct: https://arxiv.org/pdf/2406.00770

搜集汇总

数据集介绍

构建方式

在构建synthetic-qa-generation数据集的过程中，首先从多种格式的原始数据（如PDF、CSV和TXT）中提取和清洗文本，并利用Azure AI服务将图像和表格转换为文本格式。这一步骤生成了一个种子数据集，作为后续模型微调或检索增强生成（RAG）的基础。随后，通过应用数据增强技术，如Evol-Instruct和GLAN，进一步丰富和复杂化数据集，以提升模型在特定领域的表现。

使用方法

使用synthetic-qa-generation数据集时，用户首先需访问Azure OpenAI服务并创建Azure AI Studio项目。随后，根据数据集的构建阶段，选择合适的Jupyter笔记本进行数据处理和模型训练。对于初学者，推荐使用make_qa_multimodal_pdf_docai.ipynb笔记本。对于需要进一步增强数据集的用户，可以参考Evolve-Instruct和GLAN的相关文档进行数据增强操作。

背景与挑战

背景概述

在大型语言模型（LLM）和序列到序列模型（SLM）的微调、检索增强生成（RAG）或评估过程中，从现实世界原始数据生成问答（Q&A）格式的数据集是常见需求。然而，当需要从头创建数据集而非使用现成数据集时，会面临诸多挑战。synthetic-qa-generation数据集旨在通过展示如何从复杂非结构化数据中创建或增强问答数据集，以缓解这一问题。该数据集由微软主导，主要研究人员通过Azure AI服务将PDF、CSV和TXT等格式的原始数据转换为结构化数据，用于模型微调或RAG，从而提升特定领域应用的模型性能。

当前挑战

synthetic-qa-generation数据集在构建过程中面临的主要挑战包括：1) 从异构数据源（如PDF、CSV和TXT）中提取和清理文本，以及将表格和图像转换为文本格式；2) 由于初始数据集样本量有限（如仅1000个样本），需要通过数据增强技术（如Evol-Instruct和GLAN）创建合成数据集以提升模型性能。此外，数据增强过程中需确保生成数据的高质量和复杂性，以适应特定行业或技术领域的需求。

常用场景

经典使用场景

在自然语言处理领域，synthetic-qa-generation数据集的经典使用场景主要集中在大型语言模型（LLM）和检索增强生成（RAG）的微调过程中。该数据集通过从复杂的非结构化数据中提取和清洗文本，生成高质量的问答对，从而为模型的微调提供了坚实的基础。此外，数据集还支持通过数据增强技术进一步提升模型的性能，特别是在数据量有限的情况下，通过合成数据增强技术如Evol-Instruct和GLAN，生成更多高质量和复杂的数据，以优化模型的表现。

解决学术问题

synthetic-qa-generation数据集解决了在缺乏高质量问答数据集的情况下，如何有效进行模型微调和评估的学术难题。通过从原始数据中构建种子数据集，并应用数据增强技术，该数据集显著提升了模型在特定领域的表现，特别是在数据稀缺的情况下。这不仅为学术研究提供了新的方法论，也为实际应用中的模型优化提供了有力支持。

实际应用

在实际应用中，synthetic-qa-generation数据集被广泛用于客户概念验证（PoC）和最小可行产品（MVP）的开发。例如，通过微调GPT-4o模型，客户可以在Azure AI Studio中评估模型在相似性、连贯性和流畅性方面的表现，从而优化其产品和服务。此外，该数据集还支持在不同行业和技术领域中的定制化应用，通过数据增强技术进一步提升模型的专业性和准确性。

数据集最近研究