Myroides odoratimimus|微生物学数据集|分子生物学数据集
收藏CENSUS2011
Indian Census data which was collected in 2011
kaggle 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
WenetSpeech
WenetSpeech是一个大规模的多领域普通话语音数据集,总时长超过22400小时,包括10000+小时高质量标注语音、2400+小时弱标注语音和约10000小时未标注语音。数据来源于YouTube和Podcast,覆盖多种说话风格、场景、领域、话题和噪声条件。通过光学字符识别(OCR)方法和高质量自动语音识别(ASR)转录系统生成音频/文本分割候选,并采用端到端标签错误检测方法进行验证和过滤。此外,提供三个手动标注的高质量测试集用于评估。WenetSpeech是目前最大的开源普通话语音语料库,适用于生产级语音识别研究。
arXiv 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
Autism-Datasets
收集了一些关于自闭症的数据集。
github 收录