有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
GHCN
GHCN(Global Historical Climatology Network)是一个全球历史气候网络数据集,包含了全球各地气象站记录的每日气象数据,如温度、降水、风速等。该数据集用于研究气候变化和天气模式。
www.ncei.noaa.gov 收录
Project Gutenberg
Project Gutenberg是一个提供免费电子书的数据集,包含超过60,000本免费电子书,涵盖了文学、历史、科学等多个领域。这些电子书主要以公共领域作品为主,用户可以自由下载和使用。
www.gutenberg.org 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
google/speech_commands
SpeechCommands数据集包含一秒钟的.wav音频文件,每个文件包含一个单独的英语单词或背景噪音。这些单词来自一组命令,并由不同的说话者录制。数据集有两个版本,v0.01和v0.02,分别包含64,727和105,829个音频文件。数据集的主要任务是关键词检测,即通过分类将话语分类为预定义的单词集。数据集的语言为英语,数据集的创建目的是为了帮助训练简单的机器学习模型。
hugging_face 收录