five

Nexdata/249_Hours_Hangzhou_Dialect_Speech_Data_by_Mobile_Phone|语音识别数据集|杭州方言数据集

收藏
hugging_face2024-04-19 更新2024-06-12 收录
语音识别
杭州方言
下载链接:
https://hf-mirror.com/datasets/Nexdata/249_Hours_Hangzhou_Dialect_Speech_Data_by_Mobile_Phone
下载链接
链接失效反馈
资源简介:
该数据集收集了370位杭州方言使用者的口语录音,每位参与者录制了约500句话。录音在安静的室内环境中进行,使用Android和iPhone手机,录音内容为口语化、生活化的语言。转录内容包括文本和噪声符号,准确率为95%。数据集适用于语音识别和声纹识别。

该数据集收集了370位杭州方言使用者的口语录音,每位参与者录制了约500句话。录音在安静的室内环境中进行,使用Android和iPhone手机,录音内容为口语化、生活化的语言。转录内容包括文本和噪声符号,准确率为95%。数据集适用于语音识别和声纹识别。
提供机构:
Nexdata
原始信息汇总

数据集概述

数据收集

  • 来源:370名杭州本地发言人
  • 内容:每人约500句杭州方言口语句子
  • 特点:录音内容贴近生活,自然流畅,由杭州本地人参与QA和校对,文本转录准确度高

技术规格

  • 格式:16kHz, 16bit, uncompressed wav, 单声道
  • 环境:安静的室内环境,无回声

参与者信息

  • 人数:370人
  • 性别分布:83%为女性

设备

  • 录音设备:主流Android手机和iPhone

语言

  • 方言:杭州方言

转录内容

  • 类型:文本及噪音符号
  • 准确率:95%(不包含噪音符号的准确率)

应用场景

  • 主要用途:语音识别、声纹识别

许可信息

  • 许可证:商业许可证
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Coffee_Shop_Sales

该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

koen430/relevant_selected_stock_news

该数据集包含通过GPT-3.5-turbo筛选出的新闻文章,旨在用于微调大型语言模型,以预测新闻发布后的股票价格变动。数据集包括多个特征,如股票代码、提示、文本、URL、结果、相关性、令牌计数等,并分为训练集、验证集和测试集。

hugging_face 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录