five

achandlr/BatchPrompting

收藏
Hugging Face2024-04-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/achandlr/BatchPrompting
下载链接
链接失效反馈
官方服务:
资源简介:
Batch Prompting Dataset是一个全面的文本问答对集合,旨在微调和评估大型语言模型(LLMs)在多种任务中的表现。该数据集涵盖了自然语言处理(NLP)领域的多个任务,如常识推理、文本蕴含、情感分析和问答等。数据集包含多个任务,如Glue Benchmark、Grade School Math、CommonsenseQA和RACE等,每个任务都有明确的描述和格式。数据集以批处理方式组织,便于高效微调和评估。此外,数据集还包含元数据,如任务类型、难度级别和来源数据集,可用于过滤和分析LLMs的性能。数据集分为训练集、验证集和测试集,支持多种NLP研究和开发应用。

Batch Prompting Dataset是一个全面的文本问答对集合,旨在微调和评估大型语言模型(LLMs)在多种任务中的表现。该数据集涵盖了自然语言处理(NLP)领域的多个任务,如常识推理、文本蕴含、情感分析和问答等。数据集包含多个任务,如Glue Benchmark、Grade School Math、CommonsenseQA和RACE等,每个任务都有明确的描述和格式。数据集以批处理方式组织,便于高效微调和评估。此外,数据集还包含元数据,如任务类型、难度级别和来源数据集,可用于过滤和分析LLMs的性能。数据集分为训练集、验证集和测试集,支持多种NLP研究和开发应用。
提供机构:
achandlr
原始信息汇总

数据集概述

数据集描述

  • 名称: Batch Prompting Dataset for Fine-Tuning Large Language Models
  • 目的: 用于微调和评估大型语言模型(LLMs)在多种任务上的性能。
  • 内容: 包含来自多个NLP基准的任务,如GLUE Benchmark、Grade School Math (GSM8K)、CommonsenseQA、RACE等。
  • 组织方式: 问题-答案对按批次组织,支持分类、多选和开放式问题。

数据集结构

  • 特征:
    • input: 输入文本或问题(字符串类型)
    • output: 对应的输出或答案(字符串类型)
    • k_shot_size: 任务提供的少量示例数量(整数类型,范围1-6)
    • batch_size: 批次中的问题-答案对数量(整数类型,范围0-6)
    • task: 任务名称或源数据集(字符串类型)
    • text: 问题-答案对的完整文本,包括任何额外上下文或指令(字符串类型)
  • 分割:
    • train: 535761个示例,2985314876字节
    • test: 279549个示例,1549268687字节

应用

  • 微调和评估特定任务或领域的LLMs
  • 比较不同LLM架构和训练策略的性能
  • 研究批次大小和少量学习对LLM性能的影响
  • 分析任务和领域间的知识迁移性
  • 开发新的提示技术和策略以提升LLM性能

使用方法

  • 使用Hugging Face datasets库加载数据集: python from datasets import load_dataset dataset = load_dataset("achandlr", "batch_prompting_dataset")
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作