scikit-learn/credit-card-clients|信用评估数据集|机器学习数据集
收藏数据集概述
数据集名称
Default of Credit Card Clients Dataset
数据集来源
UCI machine learning repository
数据集内容
- 时间范围:2005年4月至2005年9月
- 地理位置:台湾
- 数据类型:包含25个变量,涉及客户ID、信用额度、性别、教育程度、婚姻状况、年龄、还款状态、账单金额和前期支付金额等。
变量详情
- ID:客户ID
- LIMIT_BAL:信用额度(新台币)
- SEX:性别(1=男, 2=女)
- EDUCATION:教育程度(1=研究生, 2=大学, 3=高中, 4=其他, 5=未知, 6=未知)
- MARRIAGE:婚姻状况(1=已婚, 2=单身, 3=其他)
- AGE:年龄(岁)
- PAY_0 to PAY_6:各月份还款状态(-1=准时还款, 1-9=不同程度的延迟还款)
- BILL_AMT1 to BILL_AMT6:各月份账单金额(新台币)
- PAY_AMT1 to PAY_AMT6:各月份前期支付金额(新台币)
- default.payment.next.month:下月是否违约(1=是, 0=否)
数据集用途
- 探索不同人口统计变量类别下违约概率的变化。
- 识别预测违约的最强变量。
许可证
cc0-1.0
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录