paralinguistic-tags-bet
收藏Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/nadsoft/paralinguistic-tags-bet
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含200个音频样本的训练集(总大小约63.7MB),主要特征包括:16kHz采样率的音频数据、对应的原始文本转录(transcript)和带标签的文本(tagged_transcript)、语言标识(language)、事件标注(events)及其数量统计(n_events)。每个样本还包含音频时长(audio_duration)、处理时间(processing_time)和来源数据集(source_dataset)等元数据。数据以结构化字段存储,包含字符串、整型和浮点型等多种数据类型。适用于语音识别、事件检测或多模态分析等任务。
提供机构:
NADSOFT
创建时间:
2026-03-25
原始信息汇总
数据集概述
基本信息
- 数据集名称: paralinguistic-tags-bet
- 托管地址: https://huggingface.co/datasets/nadsoft/paralinguistic-tags-bet
- 配置名称: default
数据内容与结构
-
特征字段:
audio: 音频数据,采样率为16000 Hz。language: 语言标签,字符串类型。transcript: 原始文本转录,字符串类型。tagged_transcript: 带有副语言标签的文本转录,字符串类型。events: 事件描述,字符串类型。n_events: 事件数量,整型(int32)。audio_duration: 音频时长,浮点型(float32)。processing_time: 处理时间,浮点型(float32)。source_dataset: 源数据集标识,字符串类型。
-
数据划分:
- 训练集(train): 包含200个样本,总大小约为63.74 MB。
技术详情
- 下载大小: 约58.93 MB
- 数据集大小: 约63.74 MB
- 数据文件路径:
data/train-*



