five

Tnaot/large-dataset-audio

收藏
Hugging Face2025-12-11 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/Tnaot/large-dataset-audio
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含高棉语(柬埔寨语)的语音录音,附带详细的转录和注释。数据集总共有9,285个样本,总时长为336.68小时,平均每个样本时长为130.54秒。总词汇量为1,336,611个,其中高棉语词汇占74.4%,英语词汇占25.4%。数据来源主要包括YouTube、Telegram、对话和未知来源。数据集还包含了说话者分布、标签分布(如重叠、笑声、拖音等)以及详细的字段信息(如音频路径、原始转录、清理后的转录、持续时间等)。

This dataset contains Khmer (Cambodian) speech recordings with detailed transcriptions and annotations. The dataset consists of 9,285 examples, totaling 336.68 hours of audio with an average duration of 130.54 seconds per example. The total word count is 1,336,611, with Khmer words accounting for 74.4% and English words for 25.4%. The data sources include YouTube, Telegram, conversations, and unknown sources. The dataset also includes speaker distribution, tag distribution (e.g., overlapping, laughing, drag_tone), and detailed field information (e.g., audio path, raw transcription, cleaned transcription, duration, etc.).
提供机构:
Tnaot
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作