Continuity of the business in next 12 months
收藏github2022-03-22 更新2024-05-31 收录
下载链接:
https://github.com/karabanb/ceidg_datasets
下载链接
链接失效反馈官方服务:
资源简介:
包含2,401,055条记录,27个特征,是一个二分类问题。
This dataset comprises 2,401,055 records with 27 features, presenting a binary classification problem.
创建时间:
2020-03-15
原始信息汇总
CEIDG Datasets 概述
数据集 #1: Continuity of the business in next 12 months
- 记录数: 2,401,055
- 特征数: 27
- 问题类型: 二元分类问题
- 主要特征:
- RandomDate: 随机选择的日期,范围在2017-11-01至2018-11-01之间,或业务连续性在此期间停止的日期。
- Target: 二元响应变量,指示业务在随机日期后的12个月内是否中断。
- MonthOfStartingOfTheBusiness: 在CEIDG注册业务的月份。
- QuarterOfStartingOfTheBusiness: 在CEIDG注册业务的季度。
- MainAddressVoivodeship: 主要营业地点的省。
- MainAddressCounty: 主要营业地点的县。
- MainAddressTERC: 辅助列,TERC代码,用于从其他数据源增强数据。
- CorrespondenceAddressVoivodeship: 通信地址的省。
- CorrespondenceAddressCounty: 通信地址的县。
- CorrespondenceAddressTERC: 辅助列,TERC代码,用于从其他数据源增强数据。
- MainAndCorrespondenceAreTheSame: 检查通信地址和主要地址是否相同。
- DurationOfExistenceInMonths: 从注册业务到随机日期的月数。
- NoOfAdditionalPlaceOfTheBusiness: 额外的营业地点数量。
- IsPhoneNo: 检查注册中是否填写了电话号码。
- IsEmail: 检查注册中是否填写了电子邮件。
- IsWWW: 检查注册中是否填写了网址。
- CommunityProperty: 社区财产状态。
- HasLicences: 检查业务是否在特殊许可下运营。
- NoOfLicences: 许可证数量。
- Sex: 通过检查名字的最后一个字母来确定性别。
- HasPolishCitizenship: 是否有波兰公民身份。
- ShareholderInOtherCompanies: 是否为其他公司的股东。
- PKDMainSection 至 NoOfUniquePKDClasses: 基于波兰业务分类的特征。
数据集 #2: Survival of the businesses registered in 2011
- 记录数: 287,019
- 特征数: 26
- 问题类型: 生存分析问题
- 主要特征:
- Status: 状态。
- StartingDateOfTheBusiness: 业务开始日期。
- DateOfTermination: 终止日期。
- Terminated: 二元变量,指示公司是否存活。
- DurationOfExistenceInMonths: 从注册业务到2020-03-01的月数。
- MainAddressVoivodeship 至 ShareholderInOtherCompanies: 与数据集 #1 相同。
- PKDMainSection 至 NoOfUniquePKDClasses: 基于波兰业务分类的特征。
搜集汇总
数据集介绍

构建方式
该数据集基于波兰中央经济活动注册中心(CEIDG)的公开数据构建,涵盖了超过240万条记录。数据预处理过程中,原始数据经过清洗和转换,生成了27个特征变量。每个记录包含企业的基本信息、联系方式、地址信息以及经营活动的详细数据。数据集的构建重点在于提取与企业在未来12个月内是否继续经营相关的关键信息,并通过随机日期生成目标变量,确保数据的多样性和代表性。
使用方法
该数据集适用于二元分类问题的研究,特别是企业生存预测领域。研究人员可以使用该数据集进行机器学习模型的训练和验证,预测企业在未来12个月内是否继续经营。数据集中的特征变量可以用于特征工程,结合其他外部数据源(如GUS BDL)进行数据增强。此外,数据集还可用于探索企业生存率与地理位置、经营时长、许可证数量等因素之间的关系,为政策制定和商业决策提供数据支持。
背景与挑战
背景概述
Continuity of the business in next 12 months 数据集源自波兰中央经济活动登记处(CEIDG)的公开数据,旨在研究企业在未来12个月内持续经营的可能性。该数据集由波兰相关研究机构于近年创建,主要研究人员通过对CEIDG注册的企业数据进行深度挖掘与分析,构建了这一包含240万条记录的数据集。其核心研究问题在于通过企业的历史经营数据、注册信息、地理位置等多维度特征,预测企业在未来一年内的经营持续性。该数据集为经济学、商业分析及企业生存预测等领域提供了重要的数据支持,推动了相关领域的研究进展。
当前挑战
该数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,尽管数据集提供了丰富的企业特征,但如何准确预测企业在未来12个月内的经营持续性仍是一个复杂的问题。企业的生存受多种因素影响,包括经济环境、行业竞争、政策变化等,这些因素难以完全通过历史数据进行量化。其次,在数据构建过程中,研究人员面临数据清洗、特征提取和缺失值处理等挑战。例如,部分字段如电话号码、电子邮件等为可选填写项,导致数据稀疏性较高;此外,性别分类基于姓名最后一个字母的简单规则,可能导致对外籍人士的分类不准确。这些挑战为数据集的构建和应用带来了复杂性。
常用场景
经典使用场景
该数据集主要用于预测企业在未来12个月内是否能够持续经营。通过对企业注册信息、经营地址、联系方式、许可证情况等多维度特征的分析,研究人员可以构建分类模型,预测企业的经营连续性。这一场景在商业分析和风险管理领域具有重要价值,尤其是在评估企业生存能力和制定相关政策时。
解决学术问题
该数据集解决了企业生存分析中的关键问题,尤其是如何通过历史数据预测企业的未来经营状况。通过提供丰富的特征变量,如企业经营时间、地址信息、许可证数量等,研究人员能够深入探讨影响企业生存的关键因素。这不仅为学术界提供了宝贵的研究素材,还为政策制定者提供了数据支持,帮助他们更好地理解企业生存的驱动因素。
实际应用
在实际应用中,该数据集被广泛用于金融机构、政府部门和咨询公司的风险评估和决策支持系统中。例如,银行可以利用该数据集评估贷款申请企业的生存概率,从而降低信贷风险。政府部门则可以通过分析企业的生存趋势,制定更加精准的扶持政策,促进区域经济发展。此外,咨询公司也可以利用该数据集为客户提供企业健康度评估服务。
数据集最近研究
最新研究方向
近年来,基于CEIDG注册数据的商业连续性预测研究逐渐成为企业生存分析领域的热点。该数据集通过分析企业在未来12个月内的经营连续性,结合企业的注册信息、地理位置、经营许可等多维度特征,为研究者提供了丰富的预测模型构建基础。特别是在经济波动和疫情等外部冲击下,如何利用机器学习算法准确预测企业的生存状态,成为学术界和产业界共同关注的焦点。该数据集的应用不仅有助于提升企业风险管理能力,还为政策制定者提供了数据支持,以优化营商环境并促进经济稳定发展。
以上内容由遇见数据集搜集并总结生成



