five

WhissleAI/betrac-2026-with-meta

收藏
Hugging Face2026-04-29 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/WhissleAI/betrac-2026-with-meta
下载链接
链接失效反馈
官方服务:
资源简介:
BeTraC数据集的全版本,带有Whisper强制对齐和SPEAKER_CHANGE标签。该数据集通过Whissle Annotator创建,是一个多模态注释的语音数据集,包含57,917条记录,总音频时长为464.6小时。每条记录平均时长为28.9秒,包含55个分类标记,覆盖音频特征、NLP注释和命名实体。数据集来源于多个HuggingFace数据集的分段组合,原始数据集包含原始音频对话,此版本将其分割为单个话语并丰富了分类标记。数据集适用于meta-ASR模型训练。

Full BeTraC dataset with Whisper forced alignment and SPEAKER_CHANGE tags. This dataset is created with Whissle Annotator, a multimodal annotation pipeline for speech, NLP, and visual analysis. It contains 57,917 records with a total audio duration of 464.6 hours. Each segment averages 28.9 seconds and is enriched with 55 classification tokens covering audio characteristics, NLP annotations, and named entities. The dataset is derived from segmented versions of multiple HuggingFace datasets containing raw audio conversations, making it ready for meta-ASR model training.
提供机构:
WhissleAI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作