song_dataset_chunked
收藏Vietnamese Songs Word-Level Timestamp Dataset (Chunked) 数据集概述
基本信息
- 数据集名称: Vietnamese Songs Word-Level Timestamp Dataset (Chunked)
- 数据集标识:
sunbv56/song_dataset_chunked - 许可证: Apache-2.0
- 语言: 越南语 (vi)
- 标签: 音频、文本、语音识别、音乐、歌曲、歌词对齐、词级时间戳
- 官方描述: Vietnamese Song Lyrics and Word Timestamps Dataset
数据集摘要
该数据集包含越南语歌曲的词级时间戳信息,并已预先分割为不超过30秒的片段,适用于训练或微调如Whisper等语音识别系统。
时长信息:
- 训练集 (
train_chunked.jsonl): 约 230.62 小时音频
设计用途
- 在音乐数据上训练和评估自动语音识别模型。
- 歌词同步(歌词对齐/卡拉OK生成)。
- 对歌词进行自然语言处理分析。
数据字段
chunk_id(字符串): 片段的唯一标识符,格式为{song_id}_{chunk_index:03d}。song_id(字符串): 原始歌曲的8字符字符串标识符。title(字符串): 歌曲名称。artist(字符串): 歌曲表演者。album(字符串): 歌曲所属专辑。streaming_url(字符串): 音频流媒体URL(MP3/M4A格式),包含临时安全令牌。chunk_start_ms(整数): 片段在完整音频文件中的开始时间(毫秒)。chunk_end_ms(整数): 片段在完整音频文件中的结束时间(毫秒)。chunk_lyrics(字符串): 该片段包含的歌词文本,句子间用分隔。chunk_word_timestamps(字典列表的列表): 词级对齐信息。最外层列表代表句子/行,内层列表代表句子内的单词,字典包含start、end和word键。
数据示例
json { "chunk_id": "ZZ8CC7AZ_001", "song_id": "ZZ8CC7AZ", "title": "Đợi Chờ Bóng Xuân", "artist": "Eric Toàn Nguyễn", "album": "Trách Duyên Bẽ Bàng", "streaming_url": "https://a128-z3.zmdcdn.me/...", "chunk_start_ms": 39340, "chunk_end_ms": 66960, "chunk_lyrics": "Lặng nhìn sương rơi Mấy mùa mưa qua", "chunk_word_timestamps": [ [ {"start": 39340, "end": 39850, "word": "Lặng"}, {"start": 39850, "end": 40340, "word": "nhìn"}, {"start": 40340, "end": 40850, "word": "sương"}, {"start": 40850, "end": 43850, "word": "rơi"} ], [ {"start": 43860, "end": 44370, "word": "Mấy"}, {"start": 44370, "end": 44860, "word": "mùa"}, {"start": 44860, "end": 45870, "word": "mưa"}, {"start": 45870, "end": 48390, "word": "qua"} ] ] }
片段生成方法
数据通过基于大写字母和原始歌词换行的分块启发式方法重建。该方法遍历时间戳的二维数组表示(句子 x 单词),并安全地分割片段以确保其不超过30秒,从而优化数据以适用于标准的Whisper序列到序列模型微调。
使用方法
python from datasets import load_dataset
dataset = load_dataset("sunbv56/song_dataset_chunked")
访问第一个训练片段
print(dataset[train][0][chunk_lyrics])



