Synthetic QnA Dataset
收藏github2024-07-14 更新2024-07-15 收录
下载链接:
https://github.com/daekeun-ml/synthetic-qa-generation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从各种格式的真实世界原始数据(如pdf、csv和txt)中创建的合成问答数据集,用于模型微调和评估。
This synthetic question answering (QA) dataset is constructed from real-world raw data in diverse formats including PDF, CSV, and TXT, and is intended for model fine-tuning and evaluation.
创建时间:
2024-07-13
原始信息汇总
合成QnA数据集生成
概述
本数据集旨在从复杂的非结构化数据中创建或增强QnA数据集,适用于LLM/SLM微调、RAG或评估。数据集的构建分为两个阶段:种子数据集构建和数据增强(可选)。
场景
概述
目标是通过微调/RAG(检索增强生成)提高模型性能,但提供的原始数据为未处理的PDF、CSV和TXT格式,包含图像、表格和文本。
阶段1. 构建种子数据集
任务是将这些异构数据预处理并转换为适合微调或RAG的结构化格式。这包括从各种文件格式中提取和清洗文本,必要时使用Azure AI服务将表格和图像转换为文本。
阶段2. 数据增强(可选)
在微调生成的数据集后,若性能仍需提升(例如数据集仅有1,000个样本),可通过应用数据增强技术创建合成数据集。数据增强技术包括Evol-Instruct、GLAN(广义指令调优)和Auto Evol-Instruct。
内容
阶段1. 构建种子数据集
make_qa_multimodal_pdf_docai.ipynb: 推荐使用,从复杂PDF生成QnA合成数据集。make_qa_multimodal_pdf_oss.ipynb: 使用开源工具生成QnA合成数据集。make_qa_only_image_multiple_pdf.ipynb: 从多PDF(图像密集)生成QnA合成数据集。make_qa_only_image_pdf.ipynb: 从单PDF(图像密集)生成QnA合成数据集。make_qa_csv.ipynb: 从CSV文件生成QnA数据集。make_qa_image_url_csv.ipynb: 从包含图像URL信息的CSV文件生成QnA数据集。
阶段2. 数据增强(可选)
- Evolve-Instruct: 基于阶段1创建的种子数据集进行数据增强。
- GLAN (Generalized Instruction Tuning): 广义指令调优,可独立于阶段1进行。
- Auto Evolve-Instruct - 开发中
参考文献
- Evolve-Instruct: https://arxiv.org/pdf/2304.12244
- GLAN (Generalized Instruction Tuning): https://arxiv.org/pdf/2402.13064
- Auto Evolve-Instruct: https://arxiv.org/pdf/2406.00770
许可证
本示例代码基于MIT-0许可证提供。详见LICENSE文件。
搜集汇总
数据集介绍

构建方式
在构建Synthetic QnA Dataset时,首先从多种格式的原始数据(如PDF、CSV和TXT)中提取和清洗文本,必要时利用Azure AI Services将表格和图像转换为文本格式。这一过程旨在将异构数据转化为适合微调或RAG的结构化数据集。随后,通过应用Evol-Instruct、GLAN等数据增强技术,进一步丰富和复杂化数据集,以提升模型在特定领域的表现。
特点
Synthetic QnA Dataset的主要特点在于其高度定制化和复杂性。数据集不仅涵盖了从多种原始数据格式中提取的丰富信息,还通过数据增强技术生成了高质量的合成数据。此外,该数据集特别适用于需要从零开始构建数据集的场景,如LLM/SLM的微调、RAG或评估,且能够显著提升模型在特定领域的表现。
使用方法
使用Synthetic QnA Dataset时,用户需首先访问Azure OpenAI Service并创建Azure AI Studio项目。接着,根据数据集的构建阶段,选择合适的Jupyter Notebook进行数据处理和模型训练。对于数据增强阶段,用户可选择Evol-Instruct或GLAN进行进一步的微调。此外,用户可根据实际需求选择在Azure AI Studio、GitHub Codespace或本地PC上进行操作。
背景与挑战
背景概述
在自然语言处理(NLP)领域,大规模语言模型(LLM)和自监督学习模型(SLM)的微调、检索增强生成(RAG)或评估过程中,生成符合Q&A格式的数据集是至关重要的。Synthetic QnA Dataset数据集由微软研究院于2024年创建,旨在解决从复杂非结构化数据中生成高质量Q&A数据集的问题。该数据集的核心研究问题是如何有效地从PDF、CSV和TXT等异构数据源中提取、清洗并转换数据,以支持模型的微调或RAG应用。通过提供一个逐步指导的实验环境,该数据集不仅为开发者提供了实用的工具,还为NLP领域的研究提供了新的数据资源。
当前挑战
Synthetic QnA Dataset在构建过程中面临多重挑战。首先,从异构数据源中提取和清洗数据是一个复杂的过程,涉及多种文件格式的处理,如PDF、CSV和TXT,这需要高效的文本提取和数据清洗技术。其次,数据集的初始规模较小,仅有1000个样本,这限制了模型的性能提升。为应对这一挑战,数据集采用了数据增强技术,如Evol-Instruct和GLAN,以生成更多高质量的合成数据。此外,数据集的生成过程依赖于Azure AI服务,这要求用户具备相应的技术能力和资源访问权限。
常用场景
经典使用场景
在自然语言处理领域,合成问答数据集(Synthetic QnA Dataset)常用于大型语言模型(LLM)或小型语言模型(SLM)的微调、检索增强生成(RAG)或评估。该数据集通过从复杂的非结构化数据中生成问答对,为模型训练提供了高质量的输入。特别是在缺乏现成数据集的情况下,合成问答数据集能够有效提升模型的性能,尤其是在处理多模态数据(如PDF、CSV、TXT文件中的图像、表格和文本)时,其作用尤为显著。
衍生相关工作
合成问答数据集的开发和应用催生了一系列相关研究和工作。例如,Evol-Instruct和GLAN(广义指令调优)等数据增强技术,通过生成更复杂、更高质量的数据,显著提升了模型的性能。此外,Auto Evol-Instruct等自动化工具的出现,进一步简化了数据生成和模型微调的过程,推动了自然语言处理技术的实际应用和发展。这些衍生工作不仅丰富了数据集的应用场景,也为相关领域的研究提供了新的思路和方法。
数据集最近研究
最新研究方向
在自然语言处理领域,合成问答数据集(Synthetic QnA Dataset)的研究正聚焦于如何从复杂的非结构化数据中生成高质量的问答对,以支持大型语言模型(LLM)和检索增强生成(RAG)的微调与评估。当前的研究方向包括利用Azure AI服务将PDF、CSV和TXT等格式的原始数据转换为结构化数据,并通过数据增强技术如Evol-Instruct和GLAN(Generalized Instruction Tuning)进一步提升数据集的质量。这些研究不仅有助于提升特定领域模型的性能,还为生成式AI在实际应用中的表现提供了新的优化路径。
以上内容由遇见数据集搜集并总结生成



