ivrit-ai/crowd-transcribe-v5
收藏Hugging Face2024-11-26 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/ivrit-ai/crowd-transcribe-v5
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含音频和文本数据,每个样本具有唯一的uuid标识符,音频数据,原始句子和转录后的句子。数据集还包含是否重新转录的标志,转录者的标识符,以及额外的数据,如音频的持续时间、是否包含外语、最大对数概率、是否有多个说话者、是否嘈杂、原始文本、是否跳过、统计数据(如完整播放次数、暂停点击次数、播放点击次数、引用来源、时间、用户代理)、文本、是否过长、是否难以理解。数据集分为训练集和测试集,训练集包含203827个样本,测试集包含20711个样本。
The dataset includes multiple feature fields such as uuid, audio files, original sentences, processed sentences, and additional data structures like duration, foreign language indicator, maximum log probability, etc. The dataset is split into a training set with 203827 samples and a test set with 20711 samples. The download size of the dataset is 19950659245 bytes, and the total size is 23652456996.606 bytes.
提供机构:
ivrit-ai



