Jzuluaga/uwb_atcc|航空通信数据集|语音识别数据集
收藏数据集概述
数据集名称
- UWB-ATCC Corpus
数据集来源
- 提供者:University of West Bohemia, Department of Cybernetics
数据集内容
- 包含航空交通控制(ATCC)中的通信录音,涉及飞行员与控制员的对话。
- 语音数据已手动转录并标注了说话者信息(飞行员/控制员)。
- 音频数据格式:8kHz, 16bit PCM, mono。
数据集规模
- 当前规模:20小时
- 计划未来扩充数据。
数据集特征
- id (string): 录音标识符,用于区分不同录音。
- audio (audio): 音频数据,采样率为16000Hz。
- text (string): 录音的转录文本。
- segment_start_time (float32): 录音片段开始时间。
- segment_end_time (float32): 录音片段结束时间。
- duration (float32): 录音时长,计算方式为segment_end_time - segment_start_time。
数据集分割
- train: 包含11291个样本,总大小为608597323.625字节。
- test: 包含2822个样本,总大小为140620332.25字节。
数据集标签
- audio
- automatic-speech-recognition
- en-atc
- en
- noisy-speech-recognition
- speech-recognition
任务类别
- automatic-speech-recognition
语言
- en (英语)
多语言性
- monolingual
许可证
- cc-by-nc-sa-4.0
支持的任务
- automatic-speech-recognition
- 已适配/微调模型:XLS-R-300m

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
Coffee_Shop_Sales
该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。
github 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
Oxford 102 Flowers
牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集,分为102个类别,共102种花卉,其中每个类别包含40到258幅图像。 该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布
OpenDataLab 收录