five

AQuilt

收藏
arXiv2025-07-25 更新2025-07-26 收录
下载链接:
https://github.com/Krueske/AQuilt
下载链接
链接失效反馈
官方服务:
资源简介:
AQuilt是一个用于从任何未标记数据中构建指令微调数据的高相关性数据综合框架,包括答案、问题、未标记数据、检查、逻辑和任务类型。该数据集包含703k个示例,用于训练一个强大的数据综合模型。实验表明,AQuilt的性能与DeepSeekV3相当,同时仅使用17%的生产成本。进一步分析表明,我们生成的数据与下游任务的相关性更高。

AQuilt is a high-relevance data synthesis framework for building instruction-tuning datasets from arbitrary unlabeled data. The generated datasets cover various elements including answers, questions, unlabeled input data, verification procedures, logical constraints, and task types. These datasets consist of 703k examples, which are used to train a robust data synthesis model. Experimental results demonstrate that AQuilt achieves performance on par with DeepSeekV3, while only requiring 17% of the production costs. Further analysis reveals that the data generated by AQuilt exhibits significantly higher relevance to downstream tasks.
提供机构:
哈尔滨工业大学(深圳)计算机与智能学院
创建时间:
2025-07-25
原始信息汇总

AQuilt 数据集概述

1. 数据集简介

  • 名称:AQuilt
  • 用途:用于训练AQuilt模型的高质量领域特定数据合成框架
  • 核心功能:自动合成高质量领域特定数据,支持逻辑推理和自我检查

2. 数据集内容

3. 数据格式

输入格式

  • 纯文本文件,每行包含一个未标记的文本
  • 示例: txt Direct pressure applied on the inner ear cannot …… the other group. We evaluate the outcome vesicoureteral reflux (VUR) in …… respectively (p>0.05).

输出格式

  • JSON文件,包含结构化指令
  • 示例: json [ { "context": "Direct pressure applied on the inner ear cannot …… the other group.", "task_type": "natural language inference", "qa_pair": { "question": "Does direct pressure applied on the inner ear during scuba diving induce hearing loss...", "thinking_steps": "1. Understand the Question...", "answer": "No" }, "analysis_steps": "1. The question is clear and specific...", "score": 4 } ]

4. 任务类型

  • 支持的任务类型包括:
    • 单选择题回答
    • 多选择题回答
    • 封闭式问题回答
    • 开放式问题回答
    • 文本摘要
    • 文本生成
    • 自然语言推理
    • 文本分类
    • 抽取式问题回答
    • 自然语言理解
    • 对应的中文版本

5. 使用说明

数据生成

  • 使用dataGen.py脚本从未标记文本生成合成指令数据
  • 关键参数:
    • --model_path:AQuilt模型路径
    • --eval_lora_path:自我检查LoRA适配器路径
    • --eval:启用自我检查模式
    • --input_file:输入文本文件
    • --output_file:输出JSON文件
    • --task_type:目标任务类型
    • --language:任务语言(en/zh)

数据评估

  • 使用data_eval.py脚本评估合成数据质量
  • 关键参数:
    • --model_path:AQuilt模型路径
    • --eval_lora_path:自我检查LoRA适配器路径
    • --data_path:合成数据路径
    • --output_datapath:评估结果数据集路径

6. 实验

领域数据合成

  • 使用dataGen.sh脚本合成数据
  • 支持的领域任务:
    • ceval
    • pubmedqa
    • squadqa
    • translation
    • openend

模型训练

  • 使用train_llama3.sh脚本训练下游模型
  • 需在data_info.json中指定数据集路径

7. 引用

bash @misc{ke2025aquiltweavinglogicselfinspection, title={AQuilt: Weaving Logic and Self-Inspection into Low-Cost, High-Relevance Data Synthesis for Specialist LLMs}, author={Xiaopeng Ke and Hexuan Deng and Xuebo Liu and Jun Rao and Zhenxi Song and Jun Yu and Min Zhang}, year={2025}, eprint={2507.18584}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.18584}, }

搜集汇总
数据集介绍
main_image_url
构建方式
AQuilt数据集的构建采用了创新的逻辑感知与自检机制框架,通过整合未标注数据、任务类型定义及商业大模型DeepSeek-V3的蒸馏能力,系统化生成包含问题、答案、逻辑链和质检评分的四元组数据。研究团队从33个跨领域双语数据源中提取原始语料,采用任务自适应提示工程构建703k样本,并通过基于LoRA的微调策略优化合成模型,显著降低生成成本至基准模型的17%。
特点
该数据集的核心特征体现在三方面:其一,首创逻辑链增强机制,通过显式建模推理过程提升专业领域任务的解释性;其二,引入5级质检评分体系,利用自监督方式过滤低质量数据,确保下游任务适配性;其三,支持开放/封闭式问答等10类任务范式,通过任务类型前缀指令实现零样本泛化能力。实验表明其生成数据与目标领域的语义相关性较基线模型提升23%。
使用方法
使用AQuilt需遵循三阶段流程:首先指定领域未标注数据和任务类型(如医学NLI),由合成模型生成四元组数据;其次调用质检模块自动筛除评分≤2的样本;最后将高质量数据用于专业LLM微调。对于未见任务类型,可通过添加'开放式问答'前缀指令实现零样本迁移,该设计在CEVAL法律推理任务中达到88.44%准确率。
背景与挑战
背景概述
AQuilt数据集由哈尔滨工业大学(深圳)计算与智能研究院的研究团队于2025年提出,旨在解决大型语言模型(LLMs)在专业领域表现不佳的问题。该数据集通过结合逻辑推理和自我检查机制,从无标注数据中生成高质量的指令调优数据,覆盖多种任务类型,如问答、文本摘要和自然语言推理等。AQuilt的创新在于其低成本和高相关性,能够在仅使用17%的生产成本下,达到与DeepSeekV3相媲美的性能,显著推动了专业领域语言模型的发展。
当前挑战
AQuilt数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,AQuilt旨在解决专业领域数据合成的高成本和低泛化性问题,但如何确保生成数据的多样性和高质量仍是一个关键挑战。在构建过程中,依赖大型商业模型(如DeepSeek-V3)导致的高成本问题,以及如何在小模型中有效捕捉领域特定特征,都是需要克服的技术难点。此外,数据合成过程中的逻辑推理和自我检查机制的引入,虽然提升了数据质量,但也增加了模型的复杂性和训练难度。
常用场景
经典使用场景
AQuilt数据集在专业领域的大型语言模型(LLM)训练中表现出色,特别是在法律和医学等需要高度专业化知识的领域。通过结合逻辑推理和自我检查机制,AQuilt能够生成高质量的指令调优数据,显著提升模型在复杂任务中的表现。其多任务覆盖能力使其成为跨领域研究的理想选择。
实际应用
在实际应用中,AQuilt被广泛用于训练专业领域的对话系统和问答模型。例如,在法律咨询和医疗诊断场景中,基于AQuilt训练的模型能够提供更准确和可靠的回答。其低成本高效率的特点也使其成为中小企业开发专业AI工具的有力选择。
衍生相关工作
AQuilt的推出催生了一系列相关研究,如基于逻辑增强的领域自适应方法和低成本数据合成框架。其技术路线影响了Bonito等后续工作的设计,并在DeepSeek-V3等大型模型的优化中得到应用。该数据集的开源也促进了专业领域LLM研究的社区协作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作