用户听歌模式数据集|音乐消费数据集|用户行为分析数据集
收藏数据集概述
数据集内容
- 包含字段:user, song, listen_count, title, release, artist_name, year
- 数据用途:用于开发音乐推荐系统,分析用户听歌行为
数据分析方法
- 探索性数据分析(EDA):通过可视化(图表和表格)分析数据集,识别最受欢迎的歌曲和艺术家,分析用户听歌习惯和歌曲分布
推荐算法
- 使用SVD算法(来自scikit-surprise库)进行推荐
- 模型训练和评估包括详细的训练过程和评估方法,可能涉及交叉验证策略
代码和文档
- 源代码:充分注释和文档化,便于理解和复现
- 代码结构:组织良好,遵循Python编程最佳实践

CosyVoice 2
CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。
arXiv 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
ClinicalTrials.gov
Provides patients, family members, health care professionals, and members of the public easy access to information on clinical trials for a wide range of diseases and conditions.
OPEN DATA NETWORK 收录
AudioSet
Audioset 是一个音频事件数据集,由超过 200 万个人工注释的 10 秒视频片段组成。这些剪辑是从 YouTube 收集的,因此其中许多质量很差,并且包含多个声源。使用 632 个事件类的分层本体来注释这些数据,这意味着可以将相同的声音注释为不同的标签。例如,吠叫的声音被注释为 Animal、Pets 和 Dog。所有视频都分为评估/平衡训练/不平衡训练集。
OpenDataLab 收录
Global Burden of Disease (GBD) Study
全球疾病负担研究(GBD)是一个综合性的全球健康评估项目,旨在量化全球、国家和地方层面的疾病、伤害和风险因素的负担。数据集包括各种健康指标,如死亡率、发病率、残疾调整生命年(DALYs)等,涵盖了多种疾病和伤害,以及多种风险因素。
ghdx.healthdata.org 收录