five

C4 Dataset|自然语言处理数据集|机器学习数据集

收藏
github2024-10-11 更新2024-10-12 收录
自然语言处理
机器学习
下载链接:
https://github.com/abx393/llm-pruning-calibration-data
下载链接
链接失效反馈
资源简介:
C4数据集是一个用于语言模型预训练的大型文本数据集,广泛用于评估和优化语言模型的性能。
创建时间:
2024-10-04
原始信息汇总

EMNLP 2024 数据集概述

数据集名称

Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning

数据集描述

该数据集用于研究大型语言模型(LLM)剪枝中的校准数据选择问题。研究评估了多种常用数据集在LLM剪枝中的表现,包括预训练数据集和下游任务数据集。研究结果表明,C4数据集并非最优选择,某些算术数据集在校准数据选择上表现更佳。

数据集内容

校准数据集

  • 文本数据集
    • C4
    • Pile
    • Oscar
    • RedPajama
  • 算术问答数据集
    • GSM8K
    • SVAMP
    • MAWPS
  • 自然语言推理数据集
    • e-SNLI
    • ANLI R1
    • ANLI R3
  • 常识问答数据集
    • CommonSenseQA
    • RACE
    • WinoGrande

剪枝方法

  • Wanda
  • SparseGPT

模型

  • Llama 2-Chat 7B
  • LLaMA 7B

使用说明

参数说明

  • --model:Hugging Face模型库中的LLaMA模型标识符。
  • --cache_dir:加载或存储LLM权重的目录,默认为llm_weights
  • --prune_method:剪枝方法,可选值为["magnitude", "wanda", "sparsegpt", "none"]。
  • --sparsity_ratio:表示要剪枝的权重百分比。
  • --sparsity_type:指定稀疏类型,可选值为[unstructured, 2:4, 4:8]。
  • --save:指定存储结果的目录。
  • --calibration:校准数据集选择,可选值包括[c4, oscar, redpajama, pile, gsm8k, svamp, mawps, anli_r1, anli_r2, anli_r3, esnli, rte, boolq, commonsense_qa, race, winogrande, wmt14, ellipses, random]。
  • --seed:校准数据采样的种子,默认为0。
  • --nsamples:校准样本数量,默认为128。
  • --cache_dir:缓存权重的文件路径目录,默认为llm_weights
  • --input_format:默认为concat,可选值为[single, concat, zero]。
  • --seqlen:上下文窗口的长度(以token为单位),默认为2048。
  • --data_seqlen:每个校准样本中有意义的token数量,剩余部分用填充token填充。
  • --num_incontext:每个校准样本中的上下文问答对数量。
  • --num_cot_steps:每个问答对在校准样本中的CoT推理步骤数量,仅在使用--rationale时有效。
  • --rationale:如果包含此标志,在校准样本的问答对答案部分包含CoT推理。
  • --eval_rationale:如果包含此标志,在评估时,在提示中的上下文示例中包含CoT推理。
  • --eval:默认为wikitext,可选值为[wikitext, redpajama, oscar, gsm8k, svamp, mawps, anli_r1, anli_r2, anli_r3, esnli, rte, boolq, commonsense_qa, race, winogrande, all]。
  • --skip_dense_eval:如果包含此标志,跳过密集模型(剪枝前)的评估。
  • --verbose:如果包含此标志,将中间结果打印到标准输出。
  • --append_to_file:追加结果的文件。
  • --save_model:保存剪枝模型的路径。

示例

sh python main.py --model huggyllama/llama-7b --seed 0 --prune_method wanda --sparsity_ratio 0.5 --sparsity_type unstructured --save out/llama_7b/0/

引用

@article{bandari2024c4datasetoptimalpruning, title={Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning}, author={Abhinav Bandari and Lu Yin and Cheng-Yu Hsieh and Ajay Kumar Jaiswal and Tianlong Chen and Li Shen and Ranjay Krishna and Shiwei Liu}, year={2024}, eprint={2410.07461}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.07461}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建C4数据集时,研究者们精心挑选了一系列广泛用于大型语言模型(LLM)训练和评估的数据集,包括四个预训练数据集和九个下游任务数据集。这些数据集在网络剪枝(pruning)过程中被用作校准数据,以计算剪枝分数。每个下游数据集都通过上下文学习(In-Context Learning, ICL)和思维链(Chain-of-Thought, CoT)进行提示,以确保数据的多样性和适用性。
特点
C4数据集的显著特点在于其广泛的数据来源和多样化的应用场景。它不仅涵盖了常见的预训练数据集,如C4、Pile、Oscar和RedPajama,还包含了多种下游任务数据集,如算术问答(GSM8K、SVAMP、MAWPS)、自然语言推理(e-SNLI、ANLI R1、ANLI R3)和常识问答(CommonSenseQA、RACE、WinoGrande)。这种多样性使得C4数据集在评估和优化LLM剪枝过程中具有独特的优势。
使用方法
使用C4数据集时,用户可以通过指定模型标识符(如LLaMA模型)、剪枝方法(如magnitude、wanda、sparsegpt)、稀疏比率、稀疏类型等参数来配置实验。此外,用户还可以选择不同的校准数据集和设置随机种子,以确保实验的可重复性。通过提供的示例脚本,用户可以轻松地在各种设置下运行实验,并保存剪枝后的模型及其结果。
背景与挑战
背景概述
C4数据集,由Abhinav Bandari等研究人员于2024年创建,旨在探索大型语言模型(LLM)剪枝过程中校准数据的最优选择。该数据集的提出源于对现有LLM剪枝方法普遍依赖C4数据集作为校准数据,而其最优性未被深入探讨的现状。通过评估多种常用数据集在LLM剪枝中的表现,研究团队揭示了校准数据选择对剪枝性能的显著影响,为高效部署这些强大模型提供了新的视角。
当前挑战
C4数据集在LLM剪枝中的应用面临多重挑战。首先,现有方法对C4数据集的依赖性未经过充分验证,其最优性亟待探索。其次,选择合适的校准数据对剪枝性能的影响显著,如何在众多数据集中找到最优选择是一大挑战。此外,不同类型的下游任务对校准数据的需求各异,如何在保证剪枝效果的同时满足多样化任务需求,也是研究中需要解决的问题。
常用场景
经典使用场景
C4数据集在大型语言模型(LLM)的剪枝过程中被广泛用作校准数据,以计算剪枝分数。然而,本研究揭示了C4并非最优选择,尤其是在与其他常见预训练数据集如Pile、Oscar和RedPajama的比较中。通过使用不同的校准数据集,研究者能够更精确地评估剪枝对模型性能的影响,从而优化模型的部署效率。
实际应用
在实际应用中,C4数据集的研究成果可用于优化大型语言模型的部署成本和性能。通过选择更合适的校准数据集,企业和服务提供商能够在保持模型性能的同时,显著减少计算资源和存储需求,从而实现更经济高效的AI解决方案。
衍生相关工作
C4数据集的研究不仅揭示了校准数据选择的重要性,还激发了一系列相关工作。例如,后续研究可能探索更多类型的校准数据集,或开发自动选择最优校准数据的方法。此外,该研究也为其他领域的模型剪枝和优化提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。

国家青藏高原科学数据中心 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录