C4 Dataset|自然语言处理数据集|机器学习数据集

github2024-10-11 更新2024-10-12 收录

自然语言处理

机器学习

下载链接：

https://github.com/abx393/llm-pruning-calibration-data

下载链接

链接失效反馈

资源简介：

C4数据集是一个用于语言模型预训练的大型文本数据集，广泛用于评估和优化语言模型的性能。

创建时间：

2024-10-04

原始信息汇总

EMNLP 2024 数据集概述

数据集名称

Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning

数据集描述

该数据集用于研究大型语言模型（LLM）剪枝中的校准数据选择问题。研究评估了多种常用数据集在LLM剪枝中的表现，包括预训练数据集和下游任务数据集。研究结果表明，C4数据集并非最优选择，某些算术数据集在校准数据选择上表现更佳。

数据集内容

校准数据集

文本数据集：
- C4
- Pile
- Oscar
- RedPajama
算术问答数据集：
- GSM8K
- SVAMP
- MAWPS
自然语言推理数据集：
- e-SNLI
- ANLI R1
- ANLI R3
常识问答数据集：
- CommonSenseQA
- RACE
- WinoGrande

剪枝方法

Wanda
SparseGPT

模型

Llama 2-Chat 7B
LLaMA 7B

使用说明

参数说明

--model：Hugging Face模型库中的LLaMA模型标识符。
--cache_dir：加载或存储LLM权重的目录，默认为llm_weights。
--prune_method：剪枝方法，可选值为["magnitude", "wanda", "sparsegpt", "none"]。
--sparsity_ratio：表示要剪枝的权重百分比。
--sparsity_type：指定稀疏类型，可选值为[unstructured, 2:4, 4:8]。
--save：指定存储结果的目录。
--calibration：校准数据集选择，可选值包括[c4, oscar, redpajama, pile, gsm8k, svamp, mawps, anli_r1, anli_r2, anli_r3, esnli, rte, boolq, commonsense_qa, race, winogrande, wmt14, ellipses, random]。
--seed：校准数据采样的种子，默认为0。
--nsamples：校准样本数量，默认为128。
--cache_dir：缓存权重的文件路径目录，默认为llm_weights。
--input_format：默认为concat，可选值为[single, concat, zero]。
--seqlen：上下文窗口的长度（以token为单位），默认为2048。
--data_seqlen：每个校准样本中有意义的token数量，剩余部分用填充token填充。
--num_incontext：每个校准样本中的上下文问答对数量。
--num_cot_steps：每个问答对在校准样本中的CoT推理步骤数量，仅在使用--rationale时有效。
--rationale：如果包含此标志，在校准样本的问答对答案部分包含CoT推理。
--eval_rationale：如果包含此标志，在评估时，在提示中的上下文示例中包含CoT推理。
--eval：默认为wikitext，可选值为[wikitext, redpajama, oscar, gsm8k, svamp, mawps, anli_r1, anli_r2, anli_r3, esnli, rte, boolq, commonsense_qa, race, winogrande, all]。
--skip_dense_eval：如果包含此标志，跳过密集模型（剪枝前）的评估。
--verbose：如果包含此标志，将中间结果打印到标准输出。
--append_to_file：追加结果的文件。
--save_model：保存剪枝模型的路径。

示例

sh python main.py --model huggyllama/llama-7b --seed 0 --prune_method wanda --sparsity_ratio 0.5 --sparsity_type unstructured --save out/llama_7b/0/

引用

@article{bandari2024c4datasetoptimalpruning, title={Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning}, author={Abhinav Bandari and Lu Yin and Cheng-Yu Hsieh and Ajay Kumar Jaiswal and Tianlong Chen and Li Shen and Ranjay Krishna and Shiwei Liu}, year={2024}, eprint={2410.07461}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.07461}, }

AI搜集汇总

数据集介绍

构建方式

在构建C4数据集时，研究者们精心挑选了一系列广泛用于大型语言模型（LLM）训练和评估的数据集，包括四个预训练数据集和九个下游任务数据集。这些数据集在网络剪枝（pruning）过程中被用作校准数据，以计算剪枝分数。每个下游数据集都通过上下文学习（In-Context Learning, ICL）和思维链（Chain-of-Thought, CoT）进行提示，以确保数据的多样性和适用性。

特点

C4数据集的显著特点在于其广泛的数据来源和多样化的应用场景。它不仅涵盖了常见的预训练数据集，如C4、Pile、Oscar和RedPajama，还包含了多种下游任务数据集，如算术问答（GSM8K、SVAMP、MAWPS）、自然语言推理（e-SNLI、ANLI R1、ANLI R3）和常识问答（CommonSenseQA、RACE、WinoGrande）。这种多样性使得C4数据集在评估和优化LLM剪枝过程中具有独特的优势。

使用方法

使用C4数据集时，用户可以通过指定模型标识符（如LLaMA模型）、剪枝方法（如magnitude、wanda、sparsegpt）、稀疏比率、稀疏类型等参数来配置实验。此外，用户还可以选择不同的校准数据集和设置随机种子，以确保实验的可重复性。通过提供的示例脚本，用户可以轻松地在各种设置下运行实验，并保存剪枝后的模型及其结果。

背景与挑战

背景概述

C4数据集，由Abhinav Bandari等研究人员于2024年创建，旨在探索大型语言模型（LLM）剪枝过程中校准数据的最优选择。该数据集的提出源于对现有LLM剪枝方法普遍依赖C4数据集作为校准数据，而其最优性未被深入探讨的现状。通过评估多种常用数据集在LLM剪枝中的表现，研究团队揭示了校准数据选择对剪枝性能的显著影响，为高效部署这些强大模型提供了新的视角。

当前挑战

C4数据集在LLM剪枝中的应用面临多重挑战。首先，现有方法对C4数据集的依赖性未经过充分验证，其最优性亟待探索。其次，选择合适的校准数据对剪枝性能的影响显著，如何在众多数据集中找到最优选择是一大挑战。此外，不同类型的下游任务对校准数据的需求各异，如何在保证剪枝效果的同时满足多样化任务需求，也是研究中需要解决的问题。

常用场景

经典使用场景

C4数据集在大型语言模型（LLM）的剪枝过程中被广泛用作校准数据，以计算剪枝分数。然而，本研究揭示了C4并非最优选择，尤其是在与其他常见预训练数据集如Pile、Oscar和RedPajama的比较中。通过使用不同的校准数据集，研究者能够更精确地评估剪枝对模型性能的影响，从而优化模型的部署效率。

实际应用

在实际应用中，C4数据集的研究成果可用于优化大型语言模型的部署成本和性能。通过选择更合适的校准数据集，企业和服务提供商能够在保持模型性能的同时，显著减少计算资源和存储需求，从而实现更经济高效的AI解决方案。

衍生相关工作

C4数据集的研究不仅揭示了校准数据选择的重要性，还激发了一系列相关工作。例如，后续研究可能探索更多类型的校准数据集，或开发自动选择最优校准数据的方法。此外，该研究也为其他领域的模型剪枝和优化提供了新的思路和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中文突发事件语料库

中文突发事件语料库是由上海大学（语义智能实验室）所构建，根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系，从互联网上收集了5类（地震、火灾、交通事故、恐怖袭击和食物中毒）突发事件的新闻报道作为生语料，然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理，最后将标注结果保存到语料库中，CEC合计332篇。

github 收录

CMU-MOSI

CMU-MOSI数据集包括了从93个YouTube的视频中获取的2199个独白类型的短视频片段。每个片段都是一个独立的多模态示例，其中图像、文本和音频占比是均匀的，情感分数取值为[-3,+3]，表示从强负向到强正向情感。

DataCite Commons 收录

ReferCOCO数据集

ReferCOCO数据集包括refcoco、refcoco+和refcocog三个子集，用于视觉定位任务。数据集包含图像和对应的描述性文本，用于训练和测试模型识别图像中特定对象的能力。

github 收录