five

transZ/efficient_llm

收藏
Hugging Face2023-11-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/transZ/efficient_llm
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Data V4 for NeurIPS LLM Challenge,包含70949个样本,这些样本是从Huggingface收集的,并经过一系列预处理步骤。数据集分为多个类别,包括数学、科学、复杂问答、CNN新闻、Oasst和Dolly等。每个类别下又细分为不同的子数据集,如gsm8k、mmlu、ARC-Challenge等。数据预处理包括数据收集、少样本选择、少样本重排和提示设计等步骤。
提供机构:
transZ
原始信息汇总

数据集概述

数据集名称

Data V4 for NeurIPS LLM Challenge

许可

MIT

任务类别

  • 文本生成

数据规模

  • 100K<n<1M

数据集组成

数据集包含70949个样本,具体分布如下:

数学

  • 样本数:1273
  • 来源:
    • gsm8k
    • math_qa
    • math-eval/TAL-SCQ5K
    • TAL-SCQ5K-EN
    • meta-math/MetaMathQA
    • TIGER-Lab/MathInstruct

科学

  • 样本数:42513
  • 来源:
    • lighteval/mmlu - all, "split": auxiliary_train
    • lighteval/bbq_helm - all
    • openbookqa - main

复杂问答

  • 样本数:2940
  • 来源:
    • ARC-Challenge
    • ARC-Easy
    • piqa
    • social_i_qa
    • Muennighoff/babi
    • Rowan/hellaswag

复杂问答1

  • 样本数:2060
  • 来源:
    • medmcqa
    • winogrande_xl
    • winogrande_debiased
    • boolq
    • sciq

CNN

  • 样本数:2787
  • 来源:
    • cnn_dailymail - article - highlights, version 3.0.0

Oasst

  • 样本数:12771
  • 来源:
    • OpenAssistant/oasst1

Dolly

  • 样本数:6605
  • 来源:
    • databricks/databricks-dolly-15k

数据预处理

所有数据经过以下预处理步骤:

  1. 数据收集:使用prepare_data/select_data.py脚本,采用sentence-transformers/all-mpnet-base-v2Fast Community Detection进行数据过滤。
  2. 每个样本最多获取5个示例:使用prepare_data/few_shot_sample.py脚本。
  3. 重新排列数据为少数示例样本:使用prepare_data/fewshot_to_prompt.py脚本。
  4. 设计提示数据:使用prepare_data/prompt_design脚本,最终生成数据。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作