CN-Celeb|语音识别数据集|说话人识别数据集
收藏
- CN-Celeb数据集首次发布,由清华大学语音与语言技术中心(CSLT)创建,旨在推动中文语音识别和说话人识别技术的发展。
 - CN-Celeb数据集进行了首次大规模更新,增加了更多的语音样本和说话人,以提高数据集的多样性和覆盖范围。
 - CN-Celeb数据集被广泛应用于多个国际语音识别和说话人识别竞赛中,展示了其在中文语音处理领域的应用价值。
 - CN-Celeb数据集的开发团队发布了CN-Celeb2,这是一个扩展版本,包含了更多的说话人和更复杂的语音场景,进一步推动了中文语音技术的研究。
 
- 1CN-Celeb: A Challenging Chinese Speaker Recognition DatasetInstitute of Automation, Chinese Academy of Sciences · 2020年
 - 2Speaker Recognition Using Deep Learning: A SurveyUniversity of Surrey, UK · 2021年
 - 3Deep Speaker: An End-to-End Neural Speaker Embedding SystemCarnegie Mellon University · 2017年
 - 4A Study on Speaker Recognition Using CN-Celeb DatasetTsinghua University · 2021年
 - 5Speaker Diarization with LSTMGoogle · 2017年
 
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
Solar Radiation Data
该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。
www.nrel.gov 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
