suno-audio
收藏Suno Audio Dataset 数据集概述
数据集基本信息
- 数据集名称:Suno Audio Dataset
- 数据集标识:humair025/suno-audio
- 许可协议:MIT License
- 主要任务类别:文本到音频、音频分类
- 标签:音乐、音频、suno、音乐生成、AI音乐
- 数据规模:10K < n < 100K
数据集内容与规模
- 总音轨数:49,698
- 批次数量:50
- 批次大小:每批次最多1000个音频样本
- 数据格式:Apache Arrow,内嵌MP3音频
- 音频格式:MP3
数据结构与字段
数据集按批次(batch_0、batch_1等)组织,每个批次包含音频样本及其元数据。
字段说明:
audio:可播放的MP3音频文件id:唯一音轨标识符title:歌曲标题display_name:创作者/艺术家姓名handle:创作者句柄tags:音乐标签、流派和风格prompt:用于生成的文本提示duration:音轨时长(秒)play_count:在Suno上的播放次数upvote_count:社区点赞数model_name:使用的Suno模型版本created_at:创建时间戳status:音轨状态is_public:公开可见性标志
使用方式
加载数据集
python from datasets import load_dataset dataset = load_dataset("Humair332/suno-audio")
加载特定批次
python dataset = load_dataset("Humair332/suno-audio", data_dir="batch_0")
播放音频
python audio_data = dataset[train][0][audio] from IPython.display import Audio Audio(audio_data[array], rate=audio_data[sampling_rate])
按标签过滤
python rock_songs = dataset[train].filter(lambda x: rock in x[tags].lower())
最受欢迎音轨
python from datasets import Dataset df = dataset[train].to_pandas() top_tracks = df.nlargest(10, play_count)[[title, display_name, play_count]]
数据来源
- 原始数据集:https://huggingface.co/datasets/nyuuzyou/suno
引用信息
bibtex @dataset{suno_audio_dataset, title={Suno Audio Dataset}, author={Humair332}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/datasets/Humair332/suno-audio} }




