Mozilla Common Voice (Mandarin)|语音识别数据集|普通话数据集
收藏
- Mozilla Common Voice项目正式启动,旨在收集全球各地的语音数据,以促进语音识别技术的多样性和包容性。
- Mozilla Common Voice首次发布中文(普通话)语音数据集,标志着该项目在亚洲语言数据收集方面的重要进展。
- Mozilla Common Voice中文(普通话)数据集的规模显著扩大,吸引了大量志愿者参与语音数据的贡献。
- Mozilla Common Voice中文(普通话)数据集被广泛应用于语音识别和自然语言处理研究,成为相关领域的重要资源。
- Mozilla Common Voice项目持续更新和优化中文(普通话)数据集,确保数据的质量和多样性,以支持更广泛的应用场景。
- 1Common Voice: A Massively-Multilingual Speech CorpusMozilla · 2020年
- 2Improving Mandarin Speech Recognition with Mozilla Common Voice CorpusTsinghua University · 2021年
- 3Exploring the Use of Mozilla Common Voice for Low-Resource Mandarin Speech RecognitionUniversity of Science and Technology of China · 2022年
- 4Acoustic Modeling for Mandarin Speech Recognition Using Mozilla Common Voice DatasetNational Taiwan University · 2021年
- 5Leveraging Mozilla Common Voice for Mandarin Speech SynthesisPeking University · 2022年
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
CCPD
CCPD是一个大型的、多样化的、经过仔细标注的中国城市车牌开源数据集。CCPD数据集主要分为CCPD2019数据集和CCPD2020(CCPD-Green)数据集。CCPD2019数据集车牌类型仅有普通车牌(蓝色车牌),CCPD2020数据集车牌类型仅有新能源车牌(绿色车牌)。在CCPD数据集中,每张图片仅包含一张车牌,车牌的车牌省份主要为皖。CCPD中的每幅图像都包含大量的标注信息,但是CCPD数据集没有专门的标注文件,每张图像的文件名就是该图像对应的数据标注。
github 收录