fixie-ai/boolq-audio
收藏Hugging Face2024-06-12 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/fixie-ai/boolq-audio
下载链接
链接失效反馈官方服务:
资源简介:
BoolQ-Audio数据集是google/boolq数据集的衍生版本,增加了问题的音频版本作为额外特征。音频是通过将现有问题值通过Azure TTS生成器生成的,采样率为16KHz。该数据集主要用于训练和评估多模态LLM模型,特别适用于评估语音LLMs(SLMs)的零样本能力。数据集的语言为英语,许可证为Creative Commons Share-Alike 3.0。数据集包含训练集和验证集,分别有9427和3270个样本。
BoolQ-Audio dataset is a derivative variant of the google/boolq dataset, with audio versions of the questions added as an additional feature. The audio is generated via the Azure TTS generator using the original question texts, with a sampling rate of 16 kHz. This dataset is primarily used for training and evaluating multimodal Large Language Models (LLMs), and is particularly suitable for assessing the zero-shot capabilities of Speech LLMs (SLMs). The dataset is in English and licensed under Creative Commons Share-Alike 3.0. It includes a training set and a validation set, with 9427 and 3270 samples respectively.
提供机构:
fixie-ai
原始信息汇总
BoolQ-Audio 数据集概述
基本信息
- 数据集名称: BoolQ-Audio
- 语言: 英语
- 许可证: Creative Commons Share-Alike 3.0 license
- 数据集大小分类: 10K<n<100K
- 多语言性: 单语种
- 源数据集: 原始数据
- 任务类别: 文本分类
- 任务ID: 自然语言推理
- PapersWithCode ID: boolq-audio
数据集特征
- 问题: 字符串类型
- 答案: 布尔类型
- 段落: 字符串类型
- 音频:
- 采样率: 16000
- 解释: 字符串类型
数据集划分
- 训练集:
- 样本数量: 9427
- 字节数: 1016350618.49
- 验证集:
- 样本数量: 3270
- 字节数: 348430405.9
数据集大小
- 下载大小: 1031515975
- 数据集大小: 1364781024.3899999
配置
- 默认配置:
- 训练集路径: data/train-*
- 验证集路径: data/validation-*
用途
- 直接用途: 用于评估零样本能力下的语音大语言模型(SLM)。



