wearemusicai/moisesdb|音频处理数据集|源分离数据集
收藏MoisesDB 数据集概述
数据集描述
- 主页: MoisesDB 主页
- 仓库: MoisesDB 仓库
- 论文: Moisesdb: A dataset for source separation beyond 4-stems
- 联系人: Igor Pereira
数据集总结
MoisesDB 是一个用于源分离的数据集。它提供了一系列音轨及其分离的音轨(如人声、贝斯、鼓等)。该数据集用于评估源分离算法的性能。
数据下载
请在研究网站下载数据集,解压并相应配置环境变量 MOISESDB_PATH
。
shell export MOISESDB_PATH=./moises-db-data
目录结构应为:
moisesdb: moisesdb_v0.1 track uuid 0 track uuid 1 . . .
安装
您可以使用以下命令安装此包:
shell pip install git+https://github.com/moises-ai/moises-db.git
使用方法
MoisesDB
下载并配置数据集路径后,您可以创建 MoisesDB
实例以访问音轨。您还可以通过 data_path
参数提供数据集路径。
python from moisesdb.dataset import MoisesDB
db = MoisesDB( data_path=./moisesdb, sample_rate=44100 )
MoisesDB
对象具有迭代器属性,可用于访问数据集中的所有文件。
python n_songs = len(db) track = db[0] # 返回一个 MoisesDBTrack 对象
MoisesDBTrack
MoisesDBTrack
对象包含数据集中音轨的信息,可以实时混合音轨和多个源。
您可以通过 stems
和 audio
属性访问所有音轨和混合音轨。stems
属性返回一个字典,键为可用音轨,值为 nd.array
。audio
属性返回混合音轨的 nd.array
。
python track = db[0] stems = track.stems # stems = {vocals: ..., bass: ..., ...} mixture = track.audio # mixture = nd.array
MoisesDBTrack
对象还包含音轨的其他非音频信息,如:
track.id
track.provider
track.artist
track.name
track.genre
track.sources
track.bleedings
track.activity
音轨和混合音轨是实时计算的。您可以使用 MoisesDBTrack
的 save_stems
方法创建仅包含音轨的数据集版本。
python track = db[0] path = ./moises-db-stems/0 track.save_stems(path)
性能评估
我们在 MoisesDB
上运行了一些源分离算法和预言方法,以评估每个音轨的性能。这些结果位于 benchmark
文件夹中的 csv
文件中。
引用
如果您在研究中使用了 MoisesDB
数据集,请引用以下论文:
bibtex @misc{pereira2023moisesdb, title={Moisesdb: A dataset for source separation beyond 4-stems}, author={Igor Pereira and Felipe Araújo and Filip Korzeniowski and Richard Vogl}, year={2023}, eprint={2307.15913}, archivePrefix={arXiv}, primaryClass={cs.SD} }
许可
MoisesDB
使用 NC-RCL 许可证分发。
"Non-Commercial Research Community license (NC-RCL)
Limited Redistribution: 您可以在任何媒介或格式中复制和使用提供的音频材料,只要仅用于研究社区中的非商业目的,并且仅通过 moises.ai 平台或其他明确授权的平台进行重新分发。未经许可方书面同意,不得在授权平台之外进行重新分发。
Attribution: 您必须给予适当的署名(包括艺术家名称和歌曲标题),并提供指向此许可证或指示此许可证条款的通知。
Non-Commercial Use: 您不得将材料用于任何商业目的或经济利益。这包括但不限于材料的销售、许可或租赁,以及任何主要目的是产生收入或利润的使用。
No Derivative Works: 除非艺术家明确允许,否则您不得创建、混音、改编或基于材料构建。
Preservation of Legal Notices: 您不得移除材料中包含或附带的任何版权或其他专有声明。
Termination: 如果您未能遵守此许可证,您使用材料的权限将自动终止。
Voice Cloning Restriction: 您不得使用人声音轨或音频材料的任何部分创建艺术家的公开数字声音模仿(例如:声音克隆或复制品)。这包括但不限于使用语音合成技术、深度学习算法和其他基于人工智能的工具。"

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
RadDet
RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。
github 收录
中国省级灾害统计空间分布数据集(1999-2020年)
该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。
国家地球系统科学数据中心 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录