LibriSpeech ASR Corpus|语音识别数据集|自然语言处理数据集
收藏
- LibriSpeech ASR Corpus首次发布,包含约1000小时的英语语音数据,主要用于自动语音识别(ASR)研究。
- 该数据集在多个国际语音识别竞赛中被广泛应用,显著提升了ASR系统的性能。
- 随着深度学习技术的发展,LibriSpeech ASR Corpus成为训练和评估神经网络ASR模型的标准数据集之一。
- 该数据集的扩展版本发布,增加了更多的语音数据和多样化的说话人样本,进一步丰富了研究资源。
- 1LibriSpeech: An ASR Corpus Based on Public Domain Audio BooksJohns Hopkins University · 2015年
- 2End-to-End Speech Recognition from the Raw WaveformGoogle · 2018年
- 3SpecAugment: A Simple Data Augmentation Method for Automatic Speech RecognitionGoogle · 2019年
- 4Streaming End-to-End Speech Recognition for Mobile DevicesGoogle · 2019年
- 5Self-Training for End-to-End Speech RecognitionMicrosoft · 2020年
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
FEVER
FEVER(Fact Extraction and VERification)数据集是一个用于事实验证任务的数据集,包含超过185,000个标注的声明,这些声明需要从维基百科中提取证据进行验证。数据集的目标是帮助开发和评估自动事实验证系统。
fever.ai 收录
ISIC 2018
ISIC 2018数据集包含2594张皮肤病变图像,用于皮肤癌检测任务。数据集分为训练集、验证集和测试集,每张图像都附有详细的元数据,包括病变类型、患者年龄、性别和解剖部位等信息。
challenge2018.isic-archive.com 收录