有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
EATD-Corpus
EATD-Corpus是一个包含162名接受咨询的志愿者的音频和文本文件的数据集。训练集包含来自83名志愿者的数据(19名抑郁和64名非抑郁),验证集包含来自79名志愿者的数据(11名抑郁和68名非抑郁)。每个文件夹包含一个志愿者的抑郁数据,包括原始音频、预处理音频、音频翻译和抑郁评分。
github 收录
Wikipedia Dump
Wikipedia Dump 数据集包含了维基百科的完整内容,包括文章、页面、分类、模板等。数据以XML格式存储,每月更新一次。
dumps.wikimedia.org 收录
全国医院名录
数据表格中的信息包含省、市、医院名称、医院地址、医院等级、日门诊量和特色专科。统计范围为全国34个省级行政区,统计时间为2019年。
国家基础学科公共科学数据中心 收录