five

C4 Dataset|自然语言处理数据集|机器学习数据集

收藏
github2024-10-11 更新2024-10-12 收录
下载链接:
https://github.com/abx393/llm-pruning-calibration-data
下载链接
链接失效反馈
资源简介:
C4数据集是一个用于语言模型预训练的大型文本数据集,广泛用于评估和优化语言模型的性能。
创建时间:
2024-10-04
原始信息汇总

EMNLP 2024 数据集概述

数据集名称

Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning

数据集描述

该数据集用于研究大型语言模型(LLM)剪枝中的校准数据选择问题。研究评估了多种常用数据集在LLM剪枝中的表现,包括预训练数据集和下游任务数据集。研究结果表明,C4数据集并非最优选择,某些算术数据集在校准数据选择上表现更佳。

数据集内容

校准数据集

  • 文本数据集
    • C4
    • Pile
    • Oscar
    • RedPajama
  • 算术问答数据集
    • GSM8K
    • SVAMP
    • MAWPS
  • 自然语言推理数据集
    • e-SNLI
    • ANLI R1
    • ANLI R3
  • 常识问答数据集
    • CommonSenseQA
    • RACE
    • WinoGrande

剪枝方法

  • Wanda
  • SparseGPT

模型

  • Llama 2-Chat 7B
  • LLaMA 7B

使用说明

参数说明

  • --model:Hugging Face模型库中的LLaMA模型标识符。
  • --cache_dir:加载或存储LLM权重的目录,默认为llm_weights
  • --prune_method:剪枝方法,可选值为["magnitude", "wanda", "sparsegpt", "none"]。
  • --sparsity_ratio:表示要剪枝的权重百分比。
  • --sparsity_type:指定稀疏类型,可选值为[unstructured, 2:4, 4:8]。
  • --save:指定存储结果的目录。
  • --calibration:校准数据集选择,可选值包括[c4, oscar, redpajama, pile, gsm8k, svamp, mawps, anli_r1, anli_r2, anli_r3, esnli, rte, boolq, commonsense_qa, race, winogrande, wmt14, ellipses, random]。
  • --seed:校准数据采样的种子,默认为0。
  • --nsamples:校准样本数量,默认为128。
  • --cache_dir:缓存权重的文件路径目录,默认为llm_weights
  • --input_format:默认为concat,可选值为[single, concat, zero]。
  • --seqlen:上下文窗口的长度(以token为单位),默认为2048。
  • --data_seqlen:每个校准样本中有意义的token数量,剩余部分用填充token填充。
  • --num_incontext:每个校准样本中的上下文问答对数量。
  • --num_cot_steps:每个问答对在校准样本中的CoT推理步骤数量,仅在使用--rationale时有效。
  • --rationale:如果包含此标志,在校准样本的问答对答案部分包含CoT推理。
  • --eval_rationale:如果包含此标志,在评估时,在提示中的上下文示例中包含CoT推理。
  • --eval:默认为wikitext,可选值为[wikitext, redpajama, oscar, gsm8k, svamp, mawps, anli_r1, anli_r2, anli_r3, esnli, rte, boolq, commonsense_qa, race, winogrande, all]。
  • --skip_dense_eval:如果包含此标志,跳过密集模型(剪枝前)的评估。
  • --verbose:如果包含此标志,将中间结果打印到标准输出。
  • --append_to_file:追加结果的文件。
  • --save_model:保存剪枝模型的路径。

示例

sh python main.py --model huggyllama/llama-7b --seed 0 --prune_method wanda --sparsity_ratio 0.5 --sparsity_type unstructured --save out/llama_7b/0/

引用

@article{bandari2024c4datasetoptimalpruning, title={Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning}, author={Abhinav Bandari and Lu Yin and Cheng-Yu Hsieh and Ajay Kumar Jaiswal and Tianlong Chen and Li Shen and Ranjay Krishna and Shiwei Liu}, year={2024}, eprint={2410.07461}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.07461}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建C4数据集时,研究者们精心挑选了一系列广泛用于大型语言模型(LLM)训练和评估的数据集,包括四个预训练数据集和九个下游任务数据集。这些数据集在网络剪枝(pruning)过程中被用作校准数据,以计算剪枝分数。每个下游数据集都通过上下文学习(In-Context Learning, ICL)和思维链(Chain-of-Thought, CoT)进行提示,以确保数据的多样性和适用性。
特点
C4数据集的显著特点在于其广泛的数据来源和多样化的应用场景。它不仅涵盖了常见的预训练数据集,如C4、Pile、Oscar和RedPajama,还包含了多种下游任务数据集,如算术问答(GSM8K、SVAMP、MAWPS)、自然语言推理(e-SNLI、ANLI R1、ANLI R3)和常识问答(CommonSenseQA、RACE、WinoGrande)。这种多样性使得C4数据集在评估和优化LLM剪枝过程中具有独特的优势。
使用方法
使用C4数据集时,用户可以通过指定模型标识符(如LLaMA模型)、剪枝方法(如magnitude、wanda、sparsegpt)、稀疏比率、稀疏类型等参数来配置实验。此外,用户还可以选择不同的校准数据集和设置随机种子,以确保实验的可重复性。通过提供的示例脚本,用户可以轻松地在各种设置下运行实验,并保存剪枝后的模型及其结果。
背景与挑战
背景概述
C4数据集,由Abhinav Bandari等研究人员于2024年创建,旨在探索大型语言模型(LLM)剪枝过程中校准数据的最优选择。该数据集的提出源于对现有LLM剪枝方法普遍依赖C4数据集作为校准数据,而其最优性未被深入探讨的现状。通过评估多种常用数据集在LLM剪枝中的表现,研究团队揭示了校准数据选择对剪枝性能的显著影响,为高效部署这些强大模型提供了新的视角。
当前挑战
C4数据集在LLM剪枝中的应用面临多重挑战。首先,现有方法对C4数据集的依赖性未经过充分验证,其最优性亟待探索。其次,选择合适的校准数据对剪枝性能的影响显著,如何在众多数据集中找到最优选择是一大挑战。此外,不同类型的下游任务对校准数据的需求各异,如何在保证剪枝效果的同时满足多样化任务需求,也是研究中需要解决的问题。
常用场景
经典使用场景
C4数据集在大型语言模型(LLM)的剪枝过程中被广泛用作校准数据,以计算剪枝分数。然而,本研究揭示了C4并非最优选择,尤其是在与其他常见预训练数据集如Pile、Oscar和RedPajama的比较中。通过使用不同的校准数据集,研究者能够更精确地评估剪枝对模型性能的影响,从而优化模型的部署效率。
实际应用
在实际应用中,C4数据集的研究成果可用于优化大型语言模型的部署成本和性能。通过选择更合适的校准数据集,企业和服务提供商能够在保持模型性能的同时,显著减少计算资源和存储需求,从而实现更经济高效的AI解决方案。
衍生相关工作
C4数据集的研究不仅揭示了校准数据选择的重要性,还激发了一系列相关工作。例如,后续研究可能探索更多类型的校准数据集,或开发自动选择最优校准数据的方法。此外,该研究也为其他领域的模型剪枝和优化提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作