five

CRAFT|合成数据集数据集|问答系统数据集

收藏
github2024-09-04 更新2024-09-05 收录
合成数据集
问答系统
下载链接:
https://github.com/ziegler-ingo/CRAFT
下载链接
链接失效反馈
资源简介:
CRAFT是一个用于任务特定合成数据集生成的项目,通过语料库检索和增强技术,提供了多个领域的合成数据集,如生物医学问答、常识问答、医学问答等。
创建时间:
2024-08-09
原始信息汇总

CRAFT: Corpus Retrieval and Augmentation for Fine-Tuning

数据集概述

CRAFT项目提供了多个合成数据集,这些数据集适用于不同的任务,包括生物学问答(BioQA)、常识问答(CommonSenseQA, CSQA)、医学问答(MedQA)、食谱生成(RecipeGen)和摘要生成(Summarization)。这些数据集在Hugging Face平台上可用。

数据集链接

数据集使用

要使用人工编写的小样本数据,可以通过过滤数据集中的is_few_shot == 1来获取,或者直接加载assets/{task}/few-shot/corpus-task-32.jsonl文件。8个小样本实验使用每个文件的前8行。

性能表现

在合成数据集上训练的模型能够匹配通用指令调优的大型语言模型(LLMs)的性能,甚至在某些任务(如摘要生成)上超过人类策划数据的训练效果。合成数据在面对分布偏移时更为稳健,因为数据不是为特定测试集生成,而是为整体任务生成。

5-gram重叠率比较

BioQA CSQA MedQA Summarization
CRAFT<sub>XS</sub> 0.0% 0.0% 0.0% 0.0%
CRAFT<sub>S</sub> 0.0% 0.1% 0.1% 0.0%
CRAFT<sub>M</sub> 0.0% 0.2% 0.1% 0.1%
CRAFT<sub>L</sub> 0.0% 0.4% 0.3% 0.2%
CRAFT<sub>XL</sub> 0.0% 0.2% 0.2% 0.2%
Baseline <small>(In-domain Train Set)</small> 17.9% 4.4% 1.1% 0.3%

跨测试集性能比较

Dataset Baseline CRAFT<sub>XL</sub>
In-domain 89.9 78.1
MMLU<sub>Medical Genetics</sub> 60.0 69.0
MMLU<sub>Anatomy</sub> 55.6 57.0
MMLU<sub>High School Biology</sub> 69.3 67.4
MMLU<sub>College Biology</sub> 66.7 74.3
MMLU-Avg 62.9 66.9

适配器检查点

提供了在CRAFT-XL版本上微调后得到的适配器检查点的下载链接:

AI搜集汇总
数据集介绍
main_image_url
构建方式
CRAFT数据集的构建方式基于任务特定的合成数据生成技术,通过语料库检索和数据增强实现。首先,利用预训练的嵌入模型(如multi-qa-MiniLM-L6-cos-v1)对公开或私有语料库进行嵌入,生成一个包含文档嵌入的数据库。随后,根据任务需求设计少量示例(few-shots),并通过检索和数据增强技术生成大规模的合成数据集。这一过程确保了数据集的多样性和任务相关性,同时避免了特定测试集的偏差。
特点
CRAFT数据集的主要特点在于其合成数据的任务特定性和鲁棒性。通过任务特定的数据生成,CRAFT能够提供与任务高度相关的训练数据,从而提升模型在特定任务上的表现。此外,CRAFT数据集在分布偏移方面表现出显著的鲁棒性,其合成数据与测试集的5-gram重叠率远低于传统的人工策划数据集,确保了模型在不同测试集上的稳定性能。
使用方法
使用CRAFT数据集时,用户首先需下载并设置必要的文件和目录结构,包括嵌入数据库和相关语料库。接着,用户可以通过运行一系列Python脚本,依次完成语料库检索、任务样本创建、模型微调及模型评估等步骤。具体操作包括使用提供的运行配置文件执行数据检索和任务样本生成,然后进行模型微调,最后通过评估脚本对模型性能进行评估。用户还可以根据需要调整和扩展数据集,以适应不同的任务需求。
背景与挑战
背景概述
CRAFT数据集,全称为Corpus Retrieval and Augmentation for Fine-Tuning,是由Ingo Ziegler、Abdullatif Köksal、Desmond Elliott和Hinrich Schütze等研究人员于2024年创建的。该数据集的核心研究问题是通过语料库检索和增强技术生成特定任务的合成数据集,以提升模型在特定任务上的表现。CRAFT数据集的发布对自然语言处理领域,特别是数据增强和微调技术的发展产生了重要影响。其通过合成数据的方式,不仅提高了模型的泛化能力,还显著减少了数据偏差,为后续研究提供了新的方向和方法。
当前挑战
CRAFT数据集在构建过程中面临多项挑战。首先,合成数据的生成需要精确的语料库检索和增强技术,以确保数据的质量和多样性。其次,数据集的构建涉及多个领域的知识,如生物学、医学、常识等,这要求研究人员具备跨学科的专业知识。此外,合成数据的有效性验证也是一个重要挑战,需要通过严格的实验设计和对比分析来证明其对模型性能的提升。最后,数据集的规模和复杂性增加了存储和计算资源的负担,如何在有限的资源下高效地生成和使用数据集是一个亟待解决的问题。
常用场景
经典使用场景
CRAFT数据集的经典使用场景主要集中在自然语言处理领域,特别是在任务特定的数据生成和增强方面。通过利用CRAFT,研究者可以生成高质量的合成数据集,用于微调大型语言模型(LLMs)。例如,在生物医学问答(BioQA)、常识问答(CommonSenseQA)、医学问答(MedQA)、食谱生成(RecipeGen)和文本摘要(Summarization)等任务中,CRAFT能够提供丰富的合成数据,帮助模型在这些特定任务上达到甚至超越人类标注数据的效果。
解决学术问题
CRAFT数据集解决了自然语言处理领域中数据稀缺和数据分布偏移的常见学术问题。通过生成任务特定的合成数据,CRAFT不仅增加了训练数据的多样性,还提高了模型在面对不同测试集时的鲁棒性。具体来说,CRAFT的合成数据在5-gram重叠率上显著低于传统的人类标注数据,从而减少了过拟合的风险,增强了模型在多任务和跨领域测试中的表现。
衍生相关工作
CRAFT数据集的发布催生了一系列相关研究和工作。例如,基于CRAFT的合成数据,研究者们开发了新的微调策略和模型评估方法,进一步提升了大型语言模型在特定任务上的表现。此外,CRAFT的成功应用也激发了对数据生成和增强技术的深入研究,推动了自然语言处理领域在数据高效利用和模型泛化能力方面的进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

COVID-19 Data Hub

COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。

covid19datahub.io 收录

jojogo9/freshness

该数据集包含图像及其对应的标签,标签分为6类:腐烂的橙子、腐烂的香蕉、腐烂的苹果、新鲜的橙子、新鲜的香蕉、新鲜的苹果。数据集分为训练集和测试集,训练集包含10908个样本,测试集包含2705个样本。数据文件存储在指定的路径下。

hugging_face 收录

UNSW-NB15

UNSW-NB15是一个网络入侵数据集,包含九种不同的攻击,如DoS、蠕虫、后门和模糊测试器。数据集包含原始网络数据包,训练集有175,341条记录,测试集有82,332条记录,涵盖不同类型的攻击和正常数据。

github 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录