five

fixie-ai/boolq-audio

收藏
Hugging Face2024-06-12 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/fixie-ai/boolq-audio
下载链接
链接失效反馈
官方服务:
资源简介:
BoolQ-Audio数据集是google/boolq数据集的衍生版本,增加了问题的音频版本作为额外特征。音频是通过将现有问题值通过Azure TTS生成器生成的,采样率为16KHz。该数据集主要用于训练和评估多模态LLM模型,特别适用于评估语音LLMs(SLMs)的零样本能力。数据集的语言为英语,许可证为Creative Commons Share-Alike 3.0。数据集包含训练集和验证集,分别有9427和3270个样本。

BoolQ-Audio dataset is a derivative variant of the google/boolq dataset, with audio versions of the questions added as an additional feature. The audio is generated via the Azure TTS generator using the original question texts, with a sampling rate of 16 kHz. This dataset is primarily used for training and evaluating multimodal Large Language Models (LLMs), and is particularly suitable for assessing the zero-shot capabilities of Speech LLMs (SLMs). The dataset is in English and licensed under Creative Commons Share-Alike 3.0. It includes a training set and a validation set, with 9427 and 3270 samples respectively.
提供机构:
fixie-ai
原始信息汇总

BoolQ-Audio 数据集概述

基本信息

  • 数据集名称: BoolQ-Audio
  • 语言: 英语
  • 许可证: Creative Commons Share-Alike 3.0 license
  • 数据集大小分类: 10K<n<100K
  • 多语言性: 单语种
  • 源数据集: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 自然语言推理
  • PapersWithCode ID: boolq-audio

数据集特征

  • 问题: 字符串类型
  • 答案: 布尔类型
  • 段落: 字符串类型
  • 音频:
    • 采样率: 16000
  • 解释: 字符串类型

数据集划分

  • 训练集:
    • 样本数量: 9427
    • 字节数: 1016350618.49
  • 验证集:
    • 样本数量: 3270
    • 字节数: 348430405.9

数据集大小

  • 下载大小: 1031515975
  • 数据集大小: 1364781024.3899999

配置

  • 默认配置:
    • 训练集路径: data/train-*
    • 验证集路径: data/validation-*

用途

  • 直接用途: 用于评估零样本能力下的语音大语言模型(SLM)。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作