Nexdata/chinese_dialect|语音识别数据集|方言研究数据集
收藏数据集概述
数据集名称
- 名称: chinese_dialect
数据集描述
- 摘要: 包含25,000小时的汉语方言语音数据,采集自多个方言区域的本地方言说话者,覆盖福建话、广东话、四川方言、河南方言、东北方言、上海方言、维吾尔语和藏语等。数据格式为16kHz, 16bit, 单声道wav格式,句子准确率超过95%。
- 任务支持: 自动语音识别(ASR)、音频说话人识别。
- 语言: 汉语方言。
数据集结构
- 数据实例: 待补充。
- 数据字段: 待补充。
- 数据分割: 待补充。
数据集创建
- 来源数据: 待补充。
- 注释: 待补充。
- 个人和敏感信息: 待补充。
使用数据注意事项
- 社会影响: 待补充。
- 偏见讨论: 待补充。
- 其他已知限制: 待补充。
附加信息
- 许可证: 商业许可证。
- 引用信息: 待补充。

Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录