transZ/efficient_llm

Name: transZ/efficient_llm
Creator: transZ
Published: 2023-11-19 03:50:02
License: 暂无描述

Hugging Face2023-11-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/transZ/efficient_llm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Data V4 for NeurIPS LLM Challenge，包含70949个样本，这些样本是从Huggingface收集的，并经过一系列预处理步骤。数据集分为多个类别，包括数学、科学、复杂问答、CNN新闻、Oasst和Dolly等。每个类别下又细分为不同的子数据集，如gsm8k、mmlu、ARC-Challenge等。数据预处理包括数据收集、少样本选择、少样本重排和提示设计等步骤。

提供机构：

transZ

原始信息汇总

数据集概述

数据集名称

Data V4 for NeurIPS LLM Challenge

许可

MIT

任务类别

文本生成

数据规模

100K<n<1M

数据集组成

数据集包含70949个样本，具体分布如下：

数学

样本数：1273
来源：
- gsm8k
- math_qa
- math-eval/TAL-SCQ5K
- TAL-SCQ5K-EN
- meta-math/MetaMathQA
- TIGER-Lab/MathInstruct

科学

样本数：42513
来源：
- lighteval/mmlu - all, "split": auxiliary_train
- lighteval/bbq_helm - all
- openbookqa - main

复杂问答

样本数：2940
来源：
- ARC-Challenge
- ARC-Easy
- piqa
- social_i_qa
- Muennighoff/babi
- Rowan/hellaswag

复杂问答1

样本数：2060
来源：
- medmcqa
- winogrande_xl
- winogrande_debiased
- boolq
- sciq

CNN

样本数：2787
来源：
- cnn_dailymail - article - highlights, version 3.0.0

Oasst

样本数：12771
来源：
- OpenAssistant/oasst1

Dolly

样本数：6605
来源：
- databricks/databricks-dolly-15k

数据预处理

所有数据经过以下预处理步骤：

数据收集：使用prepare_data/select_data.py脚本，采用sentence-transformers/all-mpnet-base-v2和Fast Community Detection进行数据过滤。
每个样本最多获取5个示例：使用prepare_data/few_shot_sample.py脚本。
重新排列数据为少数示例样本：使用prepare_data/fewshot_to_prompt.py脚本。
设计提示数据：使用prepare_data/prompt_design脚本，最终生成数据。

5,000+

优质数据集

54 个

任务类型

进入经典数据集