transZ/efficient_llm
收藏Hugging Face2023-11-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/transZ/efficient_llm
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Data V4 for NeurIPS LLM Challenge,包含70949个样本,这些样本是从Huggingface收集的,并经过一系列预处理步骤。数据集分为多个类别,包括数学、科学、复杂问答、CNN新闻、Oasst和Dolly等。每个类别下又细分为不同的子数据集,如gsm8k、mmlu、ARC-Challenge等。数据预处理包括数据收集、少样本选择、少样本重排和提示设计等步骤。
提供机构:
transZ
原始信息汇总
数据集概述
数据集名称
Data V4 for NeurIPS LLM Challenge
许可
MIT
任务类别
- 文本生成
数据规模
- 100K<n<1M
数据集组成
数据集包含70949个样本,具体分布如下:
数学
- 样本数:1273
- 来源:
- gsm8k
- math_qa
- math-eval/TAL-SCQ5K
- TAL-SCQ5K-EN
- meta-math/MetaMathQA
- TIGER-Lab/MathInstruct
科学
- 样本数:42513
- 来源:
- lighteval/mmlu - all, "split": auxiliary_train
- lighteval/bbq_helm - all
- openbookqa - main
复杂问答
- 样本数:2940
- 来源:
- ARC-Challenge
- ARC-Easy
- piqa
- social_i_qa
- Muennighoff/babi
- Rowan/hellaswag
复杂问答1
- 样本数:2060
- 来源:
- medmcqa
- winogrande_xl
- winogrande_debiased
- boolq
- sciq
CNN
- 样本数:2787
- 来源:
- cnn_dailymail - article - highlights, version 3.0.0
Oasst
- 样本数:12771
- 来源:
- OpenAssistant/oasst1
Dolly
- 样本数:6605
- 来源:
- databricks/databricks-dolly-15k
数据预处理
所有数据经过以下预处理步骤:
- 数据收集:使用
prepare_data/select_data.py脚本,采用sentence-transformers/all-mpnet-base-v2和Fast Community Detection进行数据过滤。 - 每个样本最多获取5个示例:使用
prepare_data/few_shot_sample.py脚本。 - 重新排列数据为少数示例样本:使用
prepare_data/fewshot_to_prompt.py脚本。 - 设计提示数据:使用
prepare_data/prompt_design脚本,最终生成数据。



