CRAFT|合成数据集数据集|问答系统数据集
收藏CRAFT: Corpus Retrieval and Augmentation for Fine-Tuning
数据集概述
CRAFT项目提供了多个合成数据集,这些数据集适用于不同的任务,包括生物学问答(BioQA)、常识问答(CommonSenseQA, CSQA)、医学问答(MedQA)、食谱生成(RecipeGen)和摘要生成(Summarization)。这些数据集在Hugging Face平台上可用。
数据集链接
- BioQA: https://huggingface.co/datasets/ingoziegler/CRAFT-BioQA
- CommonSenseQA (CSQA): https://huggingface.co/datasets/ingoziegler/CRAFT-CommonSenseQA
- MedQA: https://huggingface.co/datasets/ingoziegler/CRAFT-MedQA
- RecipeGen: https://huggingface.co/datasets/ingoziegler/CRAFT-RecipeGen
- Summarization: https://huggingface.co/datasets/ingoziegler/CRAFT-Summarization
数据集使用
要使用人工编写的小样本数据,可以通过过滤数据集中的is_few_shot == 1
来获取,或者直接加载assets/{task}/few-shot/corpus-task-32.jsonl
文件。8个小样本实验使用每个文件的前8行。
性能表现
在合成数据集上训练的模型能够匹配通用指令调优的大型语言模型(LLMs)的性能,甚至在某些任务(如摘要生成)上超过人类策划数据的训练效果。合成数据在面对分布偏移时更为稳健,因为数据不是为特定测试集生成,而是为整体任务生成。
5-gram重叠率比较
BioQA | CSQA | MedQA | Summarization | |
---|---|---|---|---|
CRAFT<sub>XS</sub> | 0.0% | 0.0% | 0.0% | 0.0% |
CRAFT<sub>S</sub> | 0.0% | 0.1% | 0.1% | 0.0% |
CRAFT<sub>M</sub> | 0.0% | 0.2% | 0.1% | 0.1% |
CRAFT<sub>L</sub> | 0.0% | 0.4% | 0.3% | 0.2% |
CRAFT<sub>XL</sub> | 0.0% | 0.2% | 0.2% | 0.2% |
Baseline <small>(In-domain Train Set)</small> | 17.9% | 4.4% | 1.1% | 0.3% |
跨测试集性能比较
Dataset | Baseline | CRAFT<sub>XL</sub> |
---|---|---|
In-domain | 89.9 | 78.1 |
MMLU<sub>Medical Genetics</sub> | 60.0 | 69.0 |
MMLU<sub>Anatomy</sub> | 55.6 | 57.0 |
MMLU<sub>High School Biology</sub> | 69.3 | 67.4 |
MMLU<sub>College Biology</sub> | 66.7 | 74.3 |
MMLU-Avg | 62.9 | 66.9 |
适配器检查点
提供了在CRAFT-XL版本上微调后得到的适配器检查点的下载链接:
- BioQA: https://huggingface.co/ingoziegler/CRAFT-BioQA-XL
- CommonSenseQA (CSQA): https://huggingface.co/ingoziegler/CRAFT-CommonSenseQA-XL
- MedQA: https://huggingface.co/ingoziegler/CRAFT-MedQA-XL
- RecipeGen: https://huggingface.co/ingoziegler/CRAFT-RecipeGen-XL
- Summarization: https://huggingface.co/ingoziegler/CRAFT-Summarization-XL

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
COVID-19 Data Hub
COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。
covid19datahub.io 收录
jojogo9/freshness
该数据集包含图像及其对应的标签,标签分为6类:腐烂的橙子、腐烂的香蕉、腐烂的苹果、新鲜的橙子、新鲜的香蕉、新鲜的苹果。数据集分为训练集和测试集,训练集包含10908个样本,测试集包含2705个样本。数据文件存储在指定的路径下。
hugging_face 收录
UNSW-NB15
UNSW-NB15是一个网络入侵数据集,包含九种不同的攻击,如DoS、蠕虫、后门和模糊测试器。数据集包含原始网络数据包,训练集有175,341条记录,测试集有82,332条记录,涵盖不同类型的攻击和正常数据。
github 收录
UIEB, U45, LSUI
本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。
github 收录