CRAFT

Name: CRAFT
Creator: 哥本哈根大学计算机科学系，慕尼黑大学信息与语言处理中心（CIS），慕尼黑机器学习中心（MCML）
Published: 2024-09-04 01:54:40
License: 暂无描述

arXiv2024-09-04 更新2024-09-06 收录

下载链接：

https://github.com/ziegler-ingo/CRAFT

下载链接

链接失效反馈

官方服务：

资源简介：

CRAFT数据集是由哥本哈根大学和慕尼黑大学的研究团队开发的，用于生成特定任务的合成数据集。该数据集通过从大规模未标注的语料库中检索相关文档，并使用大型语言模型（LLMs）进行结构化增强，从而生成适合微调的任务样本。CRAFT数据集涵盖了生物学、医学和常识问答以及文本摘要等多个领域的任务。其创建过程依赖于少量用户提供的示例，通过相似性检索和语言模型增强来生成数据。该数据集主要用于优化大型语言模型在特定任务上的表现，旨在解决高质量任务特定数据集获取的挑战。

The CRAFT dataset was developed by research teams from the University of Copenhagen and Ludwig Maximilian University of Munich to generate task-specific synthetic datasets. It produces fine-tuning-ready task samples by retrieving relevant documents from large-scale unannotated corpora and conducting structured enhancement with Large Language Models (LLMs). The CRAFT dataset covers tasks across multiple domains including biology, medicine, commonsense question answering, and text summarization. Its development process relies on a small number of user-provided examples, generating data through similarity retrieval and language model-based enhancement. This dataset is primarily used to optimize the performance of Large Language Models on specific tasks, aiming to address the challenges of acquiring high-quality task-specific datasets.

提供机构：

哥本哈根大学计算机科学系，慕尼黑大学信息与语言处理中心（CIS），慕尼黑机器学习中心（MCML）

创建时间：

2024-09-04

原始信息汇总

CRAFT: Corpus Retrieval and Augmentation for Fine-Tuning

数据集概述

CRAFT项目包含多个合成数据集，用于不同任务的微调。以下是可用的合成数据集及其对应的任务：

BioQA: 生物学问答
CommonSenseQA (CSQA): 常识问答
MedQA: 医学问答
RecipeGen: 食谱生成
Summarization: 文本摘要

这些数据集可以在Hugging Face上获取，具体链接如下：

BioQA: https://huggingface.co/datasets/ingoziegler/CRAFT-BioQA
CommonSenseQA (CSQA): https://huggingface.co/datasets/ingoziegler/CRAFT-CommonSenseQA
MedQA: https://huggingface.co/datasets/ingoziegler/CRAFT-MedQA
RecipeGen: https://huggingface.co/datasets/ingoziegler/CRAFT-RecipeGen
Summarization: https://huggingface.co/datasets/ingoziegler/CRAFT-Summarization

数据集使用

少样本示例: 可以通过过滤数据集中的is_few_shot == 1来获取少样本示例，或者直接加载assets/{task}/few-shot/corpus-task-32.jsonl文件。
性能表现: 模型在合成数据集上的训练表现与通用指令微调的LLM相当，甚至在某些任务上优于人类策划的数据集。

数据集性能

分布偏移的鲁棒性: 合成数据集在分布偏移上的鲁棒性更强，因为数据生成不是针对特定测试集，而是针对整体任务。
5-gram重叠率: 合成数据集与测试集的5-gram重叠率最高为0.4%，而域内训练集的重叠率最高可达17.9%。

适配器检查点

提供了在CRAFT-XL版本上微调后的适配器检查点，具体链接如下：

BioQA: https://huggingface.co/ingoziegler/CRAFT-BioQA-XL
CommonSenseQA (CSQA): https://huggingface.co/ingoziegler/CRAFT-CommonSenseQA-XL
MedQA: https://huggingface.co/ingoziegler/CRAFT-MedQA-XL
RecipeGen: https://huggingface.co/ingoziegler/CRAFT-RecipeGen-XL
Summarization: https://huggingface.co/ingoziegler/CRAFT-Summarization-XL

搜集汇总

数据集介绍

构建方式

CRAFT数据集的构建基于一种名为“语料库检索和增强”的方法，该方法通过用户提供的少量样例来生成特定任务的合成数据集。首先，利用大规模的公共网络爬取语料库和基于相似度的文档检索，找到与用户提供的样例相关的其他人类编写的文档。然后，利用指令微调的大型语言模型（LLMs）将检索到的文档增强为定制格式的任务样本，这些样本随后可用于微调。CRAFT通过这种方式有效地生成了大规模的特定任务训练数据集，涵盖了生物学问答、医学问答、常识问答以及摘要等多个领域。

特点

CRAFT数据集的特点在于其能够高效地生成大规模的特定任务训练数据集，并且只需要用户提供的少量样例即可启动整个过程。此外，CRAFT生成的数据集在质量上能够与人工标注的数据集相媲美，甚至在摘要任务中超过了人工标注数据集的性能。CRAFT还具有高度的定制性，用户可以根据特定的格式、用例或领域需求创建样例，从而优化检索和最终模型的性能。

使用方法

使用CRAFT数据集的方法主要包括两个阶段。首先，创建一个嵌入数据库，该数据库包含大量语料库中人类编写的文档的嵌入。然后，用户提供的特定任务样例被嵌入，并通过计算样例和语料库文档之间的相似度来检索相关文档。一旦检索到相关文档，指令微调的LLM就被用来将这些自由文本文档增强为任务特定的设计，生成合成任务样本。最后，使用这些合成数据集来微调特定任务的模型。

背景与挑战

背景概述

CRAFT数据集的创建是为了解决在特定任务上构建高质量数据集的挑战。该数据集由Ingo Ziegler、Abdullatif Köksal、Desmond Elliott和Hinrich Schütze等研究人员在2024年提出，旨在通过使用少量用户编写的示例来生成合成数据集，从而减少创建高质量数据集所需的时间和资源。CRAFT利用大规模公共网络爬取语料库和基于相似性的文档检索来寻找其他相关的人类编写的文档，并通过指令调整的大型语言模型（LLM）将检索到的文档扩展为自定义格式的任务样本。CRAFT在生物学问答、医学问答、常识问答以及摘要生成等四个不同的任务上表现出色，其生成的数据集可以有效地用于模型的微调。该数据集的提出对自然语言处理领域产生了重要的影响，为特定任务的模型微调提供了一种高效且资源节约的方法。

当前挑战

CRAFT数据集面临的挑战主要包括两个方面：1) 解决领域问题的挑战：CRAFT旨在通过合成数据集来解决特定任务的模型微调问题。然而，由于合成数据可能存在重复和质量低下的问题，因此如何确保合成数据的质量和多样性是一个重要的挑战。2) 构建过程中的挑战：CRAFT在构建过程中遇到了如何有效地检索和结构化任务样本的挑战。例如，如何设计有效的相似性检索策略，如何避免检索到的文档之间存在冗余，以及如何通过指令调整的LLM将检索到的文档转换为自定义格式的任务样本。此外，CRAFT还需要解决如何确保合成数据集的规模和多样性，以及如何处理合成数据集与测试集之间的相似性等问题。

常用场景

经典使用场景

CRAFT 数据集主要用于解决特定任务的高质量数据集构建问题，尤其是当现有数据集有限或不存在时。通过用户提供的少量示例，CRAFT 可以从大规模的未标注语料库中检索相关的人类书写文档，并利用指令调整的大型语言模型 (LLM) 将这些文档增强为自定义格式的任务样本，从而用于微调。这种方法在多个任务上表现出色，包括生物学问答、医学问答、常识问答和摘要生成。

实际应用

CRAFT 数据集在实际应用中具有广泛的应用场景。例如，它可以用于构建医学问答系统，帮助医生和患者快速获取医学知识。此外，CRAFT 还可以用于构建常识问答系统，帮助人们解决日常生活中的问题。此外，CRAFT 还可以用于构建摘要生成系统，帮助人们快速获取文章或报告的核心内容。

衍生相关工作

CRAFT 数据集的提出推动了相关领域的研究进展。例如，基于 CRAFT 的方法可以用于构建特定领域的问答系统，如法律问答、金融问答等。此外，CRAFT 的思想还可以用于构建其他类型的数据集，如图像数据集、语音数据集等。这些相关工作进一步推动了人工智能技术的发展，使其在更多领域得到应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集