清远市英德市法律援助处办件结果公开信息|法律援助数据集|政务服务数据集
收藏Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
鄱阳湖流域主要水文站日水位数据集(2001-2023年)
该数据集为鄱阳湖流域部分主要水文站的日水位数据集。该数据集为流域内水文站监测数据,包含了湖口站、星子站、永修站、万家埠站、都昌等15个主要水文站的多年日水位数据。共享政策为一次可共享3000条数据,一个站点的一日数据为一条记录,一年可申请一次。 数据集包含1个excel表格文件,鄱阳湖水位.xlsx。
国家地球系统科学数据中心 收录