C4 Dataset|自然语言处理数据集|机器学习数据集
收藏EMNLP 2024 数据集概述
数据集名称
Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning
数据集描述
该数据集用于研究大型语言模型(LLM)剪枝中的校准数据选择问题。研究评估了多种常用数据集在LLM剪枝中的表现,包括预训练数据集和下游任务数据集。研究结果表明,C4数据集并非最优选择,某些算术数据集在校准数据选择上表现更佳。
数据集内容
校准数据集
- 文本数据集:
- C4
- Pile
- Oscar
- RedPajama
- 算术问答数据集:
- GSM8K
- SVAMP
- MAWPS
- 自然语言推理数据集:
- e-SNLI
- ANLI R1
- ANLI R3
- 常识问答数据集:
- CommonSenseQA
- RACE
- WinoGrande
剪枝方法
- Wanda
- SparseGPT
模型
- Llama 2-Chat 7B
- LLaMA 7B
使用说明
参数说明
--model
:Hugging Face模型库中的LLaMA模型标识符。--cache_dir
:加载或存储LLM权重的目录,默认为llm_weights
。--prune_method
:剪枝方法,可选值为["magnitude", "wanda", "sparsegpt", "none"]。--sparsity_ratio
:表示要剪枝的权重百分比。--sparsity_type
:指定稀疏类型,可选值为[unstructured
,2:4
,4:8
]。--save
:指定存储结果的目录。--calibration
:校准数据集选择,可选值包括[c4, oscar, redpajama, pile, gsm8k, svamp, mawps, anli_r1, anli_r2, anli_r3, esnli, rte, boolq, commonsense_qa, race, winogrande, wmt14, ellipses, random]。--seed
:校准数据采样的种子,默认为0。--nsamples
:校准样本数量,默认为128。--cache_dir
:缓存权重的文件路径目录,默认为llm_weights
。--input_format
:默认为concat,可选值为[single, concat, zero]。--seqlen
:上下文窗口的长度(以token为单位),默认为2048。--data_seqlen
:每个校准样本中有意义的token数量,剩余部分用填充token填充。--num_incontext
:每个校准样本中的上下文问答对数量。--num_cot_steps
:每个问答对在校准样本中的CoT推理步骤数量,仅在使用--rationale
时有效。--rationale
:如果包含此标志,在校准样本的问答对答案部分包含CoT推理。--eval_rationale
:如果包含此标志,在评估时,在提示中的上下文示例中包含CoT推理。--eval
:默认为wikitext,可选值为[wikitext, redpajama, oscar, gsm8k, svamp, mawps, anli_r1, anli_r2, anli_r3, esnli, rte, boolq, commonsense_qa, race, winogrande, all]。--skip_dense_eval
:如果包含此标志,跳过密集模型(剪枝前)的评估。--verbose
:如果包含此标志,将中间结果打印到标准输出。--append_to_file
:追加结果的文件。--save_model
:保存剪枝模型的路径。
示例
sh python main.py --model huggyllama/llama-7b --seed 0 --prune_method wanda --sparsity_ratio 0.5 --sparsity_type unstructured --save out/llama_7b/0/
引用
@article{bandari2024c4datasetoptimalpruning, title={Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning}, author={Abhinav Bandari and Lu Yin and Cheng-Yu Hsieh and Ajay Kumar Jaiswal and Tianlong Chen and Li Shen and Ranjay Krishna and Shiwei Liu}, year={2024}, eprint={2410.07461}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.07461}, }

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)
本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。
国家青藏高原科学数据中心 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录