SubjectSpatial200K|图像生成数据集|主体定位数据集
收藏
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
TCIA: The Cancer Imaging Archive
TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。
www.cancerimagingarchive.net 收录
ELSA
ELSA(English Longitudinal Study of Ageing)是一个纵向研究项目,旨在调查英国50岁及以上人群的健康、经济状况和社会关系。数据集包括参与者的健康状况、生活方式、经济状况、社会网络等多方面的信息。
www.elsa-project.ac.uk 收录
1931 2◦ CIE Standard Colorimetric Observer Data
The 1931 2◦ CIE Standard Colorimetric Observer Data (CMFs) that span 360 nm to 830 nm in 1 nm intervals.
DataCite Commons 收录
维基百科中文语料
该数据集包含从维基百科下载的中文词条文件,经过解析、清洗和处理后生成的语料文件。每个语料数据包含词条ID、词条标题和词条内容。
github 收录