fixie-ai/boolq-audio

Name: fixie-ai/boolq-audio
Creator: fixie-ai
Published: 2024-06-12 19:17:34
License: 暂无描述

Hugging Face2024-06-12 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/fixie-ai/boolq-audio

下载链接

链接失效反馈

官方服务：

资源简介：

BoolQ-Audio数据集是google/boolq数据集的衍生版本，增加了问题的音频版本作为额外特征。音频是通过将现有问题值通过Azure TTS生成器生成的，采样率为16KHz。该数据集主要用于训练和评估多模态LLM模型，特别适用于评估语音LLMs（SLMs）的零样本能力。数据集的语言为英语，许可证为Creative Commons Share-Alike 3.0。数据集包含训练集和验证集，分别有9427和3270个样本。

BoolQ-Audio dataset is a derivative variant of the google/boolq dataset, with audio versions of the questions added as an additional feature. The audio is generated via the Azure TTS generator using the original question texts, with a sampling rate of 16 kHz. This dataset is primarily used for training and evaluating multimodal Large Language Models (LLMs), and is particularly suitable for assessing the zero-shot capabilities of Speech LLMs (SLMs). The dataset is in English and licensed under Creative Commons Share-Alike 3.0. It includes a training set and a validation set, with 9427 and 3270 samples respectively.

提供机构：

fixie-ai

原始信息汇总

BoolQ-Audio 数据集概述

基本信息

数据集名称: BoolQ-Audio
语言: 英语
许可证: Creative Commons Share-Alike 3.0 license
数据集大小分类: 10K<n<100K
多语言性: 单语种
源数据集: 原始数据
任务类别: 文本分类
任务ID: 自然语言推理
PapersWithCode ID: boolq-audio

数据集特征

问题: 字符串类型
答案: 布尔类型
段落: 字符串类型
音频:
- 采样率: 16000
解释: 字符串类型

数据集划分

训练集:
- 样本数量: 9427
- 字节数: 1016350618.49
验证集:
- 样本数量: 3270
- 字节数: 348430405.9

数据集大小

下载大小: 1031515975
数据集大小: 1364781024.3899999

配置

默认配置:
- 训练集路径: data/train-*
- 验证集路径: data/validation-*

用途

直接用途: 用于评估零样本能力下的语音大语言模型（SLM）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集