UCI Machine Learning Repository: Diabetes Data Set|糖尿病数据集|机器学习数据集
收藏
- UCI Machine Learning Repository首次发布Diabetes Data Set,该数据集包含768个样本,用于预测糖尿病的发病情况。
- Diabetes Data Set首次应用于机器学习研究,特别是在分类算法中,展示了其在医疗数据分析中的潜力。
- 随着数据挖掘技术的发展,Diabetes Data Set被广泛用于各种机器学习算法的性能评估和比较研究。
- Diabetes Data Set成为医疗数据分析和预测模型构建的标准基准数据集之一,推动了相关领域的研究进展。
- 尽管已有多年历史,Diabetes Data Set仍被频繁引用和使用,特别是在深度学习和人工智能领域,展示了其持久的影响力。
- 1Performance of Machine Learning Algorithms on the UCI Diabetes DatasetUniversity of California, Irvine · 2020年
- 2A Comparative Study of Machine Learning Algorithms for Diabetes Prediction Using UCI DatasetIEEE · 2019年
- 3Diabetes Prediction Using Machine Learning Techniques: A Comparative StudySpringer · 2021年
- 4Predicting Diabetes Mellitus with Machine Learning TechniquesElsevier · 2018年
- 5Machine Learning Approaches for Diabetes Prediction: A ReviewMDPI · 2022年
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录
微博与抖音评论数据集
数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。
github 收录