five

paralinguistic-tags-bet

收藏
Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/nadsoft/paralinguistic-tags-bet
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含200个音频样本的训练集(总大小约63.7MB),主要特征包括:16kHz采样率的音频数据、对应的原始文本转录(transcript)和带标签的文本(tagged_transcript)、语言标识(language)、事件标注(events)及其数量统计(n_events)。每个样本还包含音频时长(audio_duration)、处理时间(processing_time)和来源数据集(source_dataset)等元数据。数据以结构化字段存储,包含字符串、整型和浮点型等多种数据类型。适用于语音识别、事件检测或多模态分析等任务。
提供机构:
NADSOFT
创建时间:
2026-03-25
原始信息汇总

数据集概述

基本信息

  • 数据集名称: paralinguistic-tags-bet
  • 托管地址: https://huggingface.co/datasets/nadsoft/paralinguistic-tags-bet
  • 配置名称: default

数据内容与结构

  • 特征字段:

    • audio: 音频数据,采样率为16000 Hz。
    • language: 语言标签,字符串类型。
    • transcript: 原始文本转录,字符串类型。
    • tagged_transcript: 带有副语言标签的文本转录,字符串类型。
    • events: 事件描述,字符串类型。
    • n_events: 事件数量,整型(int32)。
    • audio_duration: 音频时长,浮点型(float32)。
    • processing_time: 处理时间,浮点型(float32)。
    • source_dataset: 源数据集标识,字符串类型。
  • 数据划分:

    • 训练集(train): 包含200个样本,总大小约为63.74 MB。

技术详情

  • 下载大小: 约58.93 MB
  • 数据集大小: 约63.74 MB
  • 数据文件路径: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作