C4 Dataset|自然语言处理数据集|机器学习数据集
收藏EMNLP 2024 数据集概述
数据集名称
Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning
数据集描述
该数据集用于研究大型语言模型(LLM)剪枝中的校准数据选择问题。研究评估了多种常用数据集在LLM剪枝中的表现,包括预训练数据集和下游任务数据集。研究结果表明,C4数据集并非最优选择,某些算术数据集在校准数据选择上表现更佳。
数据集内容
校准数据集
- 文本数据集:
- C4
- Pile
- Oscar
- RedPajama
- 算术问答数据集:
- GSM8K
- SVAMP
- MAWPS
- 自然语言推理数据集:
- e-SNLI
- ANLI R1
- ANLI R3
- 常识问答数据集:
- CommonSenseQA
- RACE
- WinoGrande
剪枝方法
- Wanda
- SparseGPT
模型
- Llama 2-Chat 7B
- LLaMA 7B
使用说明
参数说明
--model:Hugging Face模型库中的LLaMA模型标识符。--cache_dir:加载或存储LLM权重的目录,默认为llm_weights。--prune_method:剪枝方法,可选值为["magnitude", "wanda", "sparsegpt", "none"]。--sparsity_ratio:表示要剪枝的权重百分比。--sparsity_type:指定稀疏类型,可选值为[unstructured,2:4,4:8]。--save:指定存储结果的目录。--calibration:校准数据集选择,可选值包括[c4, oscar, redpajama, pile, gsm8k, svamp, mawps, anli_r1, anli_r2, anli_r3, esnli, rte, boolq, commonsense_qa, race, winogrande, wmt14, ellipses, random]。--seed:校准数据采样的种子,默认为0。--nsamples:校准样本数量,默认为128。--cache_dir:缓存权重的文件路径目录,默认为llm_weights。--input_format:默认为concat,可选值为[single, concat, zero]。--seqlen:上下文窗口的长度(以token为单位),默认为2048。--data_seqlen:每个校准样本中有意义的token数量,剩余部分用填充token填充。--num_incontext:每个校准样本中的上下文问答对数量。--num_cot_steps:每个问答对在校准样本中的CoT推理步骤数量,仅在使用--rationale时有效。--rationale:如果包含此标志,在校准样本的问答对答案部分包含CoT推理。--eval_rationale:如果包含此标志,在评估时,在提示中的上下文示例中包含CoT推理。--eval:默认为wikitext,可选值为[wikitext, redpajama, oscar, gsm8k, svamp, mawps, anli_r1, anli_r2, anli_r3, esnli, rte, boolq, commonsense_qa, race, winogrande, all]。--skip_dense_eval:如果包含此标志,跳过密集模型(剪枝前)的评估。--verbose:如果包含此标志,将中间结果打印到标准输出。--append_to_file:追加结果的文件。--save_model:保存剪枝模型的路径。
示例
sh python main.py --model huggyllama/llama-7b --seed 0 --prune_method wanda --sparsity_ratio 0.5 --sparsity_type unstructured --save out/llama_7b/0/
引用
@article{bandari2024c4datasetoptimalpruning, title={Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning}, author={Abhinav Bandari and Lu Yin and Cheng-Yu Hsieh and Ajay Kumar Jaiswal and Tianlong Chen and Li Shen and Ranjay Krishna and Shiwei Liu}, year={2024}, eprint={2410.07461}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.07461}, }

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中文突发事件语料库
中文突发事件语料库是由上海大学(语义智能实验室)所构建,根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。
github 收录
CMU-MOSI
CMU-MOSI数据集包括了从93个YouTube的视频中获取的2199个独白类型的短视频片段。每个片段都是一个独立的多模态示例,其中图像、文本和音频占比是均匀的,情感分数取值为[-3,+3],表示从强负向到强正向情感。
DataCite Commons 收录
ReferCOCO数据集
ReferCOCO数据集包括refcoco、refcoco+和refcocog三个子集,用于视觉定位任务。数据集包含图像和对应的描述性文本,用于训练和测试模型识别图像中特定对象的能力。
github 收录
