achandlr/BatchPrompting

Name: achandlr/BatchPrompting
Creator: achandlr
Published: 2024-04-26 22:40:36
License: 暂无描述

Hugging Face2024-04-26 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/achandlr/BatchPrompting

下载链接

链接失效反馈

官方服务：

资源简介：

Batch Prompting Dataset是一个全面的文本问答对集合，旨在微调和评估大型语言模型（LLMs）在多种任务中的表现。该数据集涵盖了自然语言处理（NLP）领域的多个任务，如常识推理、文本蕴含、情感分析和问答等。数据集包含多个任务，如Glue Benchmark、Grade School Math、CommonsenseQA和RACE等，每个任务都有明确的描述和格式。数据集以批处理方式组织，便于高效微调和评估。此外，数据集还包含元数据，如任务类型、难度级别和来源数据集，可用于过滤和分析LLMs的性能。数据集分为训练集、验证集和测试集，支持多种NLP研究和开发应用。

提供机构：

achandlr

原始信息汇总

数据集概述

数据集描述

名称: Batch Prompting Dataset for Fine-Tuning Large Language Models
目的: 用于微调和评估大型语言模型（LLMs）在多种任务上的性能。
内容: 包含来自多个NLP基准的任务，如GLUE Benchmark、Grade School Math (GSM8K)、CommonsenseQA、RACE等。
组织方式: 问题-答案对按批次组织，支持分类、多选和开放式问题。

数据集结构

特征:
- input: 输入文本或问题（字符串类型）
- output: 对应的输出或答案（字符串类型）
- k_shot_size: 任务提供的少量示例数量（整数类型，范围1-6）
- batch_size: 批次中的问题-答案对数量（整数类型，范围0-6）
- task: 任务名称或源数据集（字符串类型）
- text: 问题-答案对的完整文本，包括任何额外上下文或指令（字符串类型）
分割:
- train: 535761个示例，2985314876字节
- test: 279549个示例，1549268687字节

应用

微调和评估特定任务或领域的LLMs
比较不同LLM架构和训练策略的性能
研究批次大小和少量学习对LLM性能的影响
分析任务和领域间的知识迁移性
开发新的提示技术和策略以提升LLM性能

使用方法

使用Hugging Face datasets库加载数据集: python from datasets import load_dataset dataset = load_dataset("achandlr", "batch_prompting_dataset")

5,000+

优质数据集

54 个

任务类型

进入经典数据集