Bank-Loan-Case-Study|银行贷款数据集|风险评估数据集
收藏银行贷款案例研究数据集
数据集描述
该数据集包含关于贷款申请的信息,主要用于探索性数据分析(EDA),以识别客户属性和贷款属性如何影响违约的可能性。数据集包括两种类型的场景:
- 有支付困难的客户:这些客户在贷款的前Y期中至少有一期延迟支付超过X天。
- 其他情况:这些情况下的支付是按时进行的。
数据集目标
通过EDA理解客户属性和贷款属性如何影响违约的可能性,以便公司可以做出更好的贷款审批决策。
业务目标
主要目标是识别表明客户将有困难支付其分期付款的模式,以便公司可以采取相应措施,如拒绝贷款、减少贷款金额或对风险较高的申请人提高贷款利率。
数据分析任务
- 识别并处理缺失数据:使用Excel内置函数和功能处理数据集中的缺失数据。
- 识别数据集中的异常值:使用Excel统计函数和功能检测并识别数据集中的异常值,特别是数值变量。
- 分析数据不平衡:确定数据集中是否存在数据不平衡,并使用Excel函数计算数据不平衡的比率。
- 进行单变量、分段单变量和双变量分析:使用Excel函数和功能进行单变量分析、分段单变量分析和双变量分析,以探索变量之间的关系和目标变量。
- 识别不同场景下的顶级相关性:根据不同场景(如有支付困难的客户和其他情况)分段数据集,并使用Excel函数识别每个分段数据中的顶级相关性。

Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录