LibriSpeech|语音识别数据集|自然语言处理数据集
收藏
- LibriSpeech数据集首次发布,包含约1000小时的英语语音数据,主要用于语音识别研究。
- LibriSpeech数据集在多个语音识别竞赛中被广泛应用,显著提升了模型的性能。
- 研究者开始利用LibriSpeech数据集进行端到端语音识别系统的训练,取得了突破性进展。
- LibriSpeech数据集被用于开发多语言语音识别模型,扩展了其应用范围。
- 基于LibriSpeech数据集的研究成果被广泛应用于商业语音识别产品中,推动了技术的市场化。
- LibriSpeech数据集的扩展版本发布,增加了更多的语音数据和多样性,进一步提升了研究的质量。
- 1LibriSpeech: A Large-Scale Speech Corpus for ASRJohns Hopkins University · 2015年
- 2End-to-End ASR: From Supervised to Semi-Supervised Learning with Modern ArchitecturesGoogle · 2019年
- 3SpecAugment: A Simple Data Augmentation Method for Automatic Speech RecognitionGoogle · 2019年
- 4Self-Training for End-to-End Speech RecognitionMicrosoft · 2020年
- 5Improving Transformer-Based Speech Recognition Using Unsupervised Pre-TrainingFacebook AI Research · 2021年
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
2022_张家界市标准地图行政区划示意版32开
基于湖南省基础地理信息数据库,依据湖南省行政区划界线标准画法和最新境界、标准地名成果,采用其他自然地理要素和人文专题要素的现势性资料编制而成。
湖南大数据交易所 收录
ClinicalTrials.gov
Provides patients, family members, health care professionals, and members of the public easy access to information on clinical trials for a wide range of diseases and conditions.
OPEN DATA NETWORK 收录
历史航班准点率
航班在最近30天里准点程度的参数综合,反映了该航班可能延误的概率指数。具体计算方法:在最近30天内,航班降落时间比计划降落时间(航班时刻表上的时间)延迟半小时以上或航班取消的情况称为延误,将出现延误情况的航班数量除以30天内实际执飞的航班数量得出延误率,准点率=1-延误率。每日全面更新一次。
苏州大数据交易所 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录