five

保险公司基准(COIL2000)数据集

收藏
帕依提提2024-03-04 收录
下载链接:
https://www.payititi.com/opendatasets/show-26114.html
下载链接
链接失效反馈
官方服务:
资源简介:
Data Set Information: 客户信息由86个变量组成,包括产品使用数据和来自邮政区号的社会人口统计数据。该数据由荷兰数据挖掘公司Senient Machine Research提供,并基于一个现实世界的商业问题。该培训集包含5000多个客户描述,包括他们是否有旅行队保险单的信息。一个测试集包含4000名客户,其中只有组织者知道他们是否有商队保险单。 The data dictionary ([Web link]) describes the variables used and their values. 注意:所有以M开头的变量都是zipcode变量。它们给出了该变量的分布信息,例如客户zipcode区域中的出租房屋。 具有制表符分隔字段的每行一个实例。 TICDATA2000.txt:用于训练和验证预测模型并构建描述的数据集(5822条客户记录)。每个记录由86个属性组成,包含社会人口数据(属性1-43)和产品所有权(属性44-86)。社会人口数据来自邮政编码。居住在相同邮政编码地区的所有客户都具有相同的社会人口特征。属性86“商队:移动房屋政策数量”是目标变量。 TICeval2000.txt:预测数据集(4000条客户记录)。它的格式与TICDATA2000.txt相同,只是缺少目标。参与者只需返回预测目标列表。所有数据集均采用制表符分隔格式。属性和属性值的含义如下所示。 评估集的TICTGTS2000.txt目标。 Attribute Information: N/A Relevant Papers: P. van der Putten and M. van Someren (eds). CoIL Challenge 2000: The Insurance Company Case. Published by Sentient Machine Research, Amsterdam. Also a Leiden Institute of Advanced Computer Science Technical Report 2000-09. June 22, 2000. [Web link] Papers That Cite This Data Set1: Bianca Zadrozny and Charles Elkan. Transforming classifier scores into accurate multiclass probability estimates. KDD. 2002. [View Context]. Stephen D. Bay and Dennis F. Kibler and Michael J. Pazzani and Padhraic Smyth. The UCI KDD Archive of Large Data Sets for Data Mining Research and Experimentation. SIGKDD Explorations, 2. 2000. [View Context]. Stefan R uping. A Simple Method For Estimating Conditional Probabilities For SVMs. CS Department, AI Unit Dortmund University. [View Context]. Citation Request: Data is (c) Sentient Machine Research 2000 This dataset is owned and supplied by the Dutch datamining company Sentient Machine Research, and is based on real world business data. You are allowed to use this dataset and accompanying information for non commercial research and education purposes only. It is explicitly not allowed to use this dataset for commercial education or demonstration purposes. Please cite/acknowledge: P. van der Putten and M. van Someren (eds) . CoIL Challenge 2000: The Insurance Company Case. Published by Sentient Machine Research, Amsterdam. Also a Leiden Institute of Advanced Computer Science Technical Report 2000-09. June 22, 2000. [Web link] Original Owner and Donor: Peter van der Putten Sentient Machine Research Baarsjesweg 224 1058 AA Amsterdam The Netherlands +31 20 6186927 pvdputten '@' hotmail.com, putten '@' liacs.nl TIC Benchmark Homepage: http://www.liacs.nl/~putten/library/cc2000/

数据集信息:本数据集的客户信息包含86个变量,涵盖产品使用数据与来自邮政编码(zipcode)的社会人口统计数据。该数据集由荷兰数据挖掘公司Sentient Machine Research提供,基于真实世界的商业场景问题。训练集包含5000余条客户描述,涵盖客户是否持有商队保险单的信息;测试集包含4000名客户,仅主办方知晓这些客户是否持有商队保险单。 数据字典([网页链接])对所用变量及其取值进行了详细说明。 注意:所有以M开头的变量均为邮政编码(zipcode)变量,用于展示对应变量的分布情况,例如客户所在邮政编码区域的出租房屋占比等信息。 每条实例占一行,字段以制表符分隔。 TICDATA2000.txt:用于训练、验证预测模型并构建数据分析描述的数据集,共包含5822条客户记录。每条记录由86个属性组成,其中属性1至43为社会人口数据,属性44至86为产品持有情况信息。社会人口数据来源于邮政编码,居住于同一邮政编码区域的所有客户具有完全一致的社会人口特征。第86个属性“商队:移动房屋保单数量”为目标变量。 TICeval2000.txt:预测数据集,共包含4000条客户记录,其格式与TICDATA2000.txt完全一致,仅缺失目标变量。参与者仅需返回预测的目标变量列表即可。所有数据集均采用制表符分隔格式,属性及属性值的含义详见下文。 评估集的真实标签存储于TICTGTS2000.txt文件中。 属性信息:无 相关论文:P. van der Putten与M. van Someren(编辑). 《CoIL Challenge 2000:保险公司案例》. 由阿姆斯特丹Sentient Machine Research出版,同时作为莱顿高等计算机科学研究所技术报告2000-09,2000年6月22日。[网页链接] 引用本数据集的论文: 1. Bianca Zadrozny和Charles Elkan. 《将分类器得分转换为准确的多分类概率估计》. KDD, 2002. [查看上下文] 2. Stephen D. Bay、Dennis F. Kibler、Michael J. Pazzani与Padhraic Smyth. 《用于数据挖掘研究与实验的大型数据集UCI KDD档案》. SIGKDD Explorations, 2, 2000. [查看上下文] 3. Stefan Rüping. 《支持向量机条件概率估计的简单方法》. 多特蒙德大学人工智能研究室计算机科学系. [查看上下文] 引用要求:本数据集版权归Sentient Machine Research所有(2000年)。本数据集由荷兰数据挖掘公司Sentient Machine Research所有并提供,基于真实商业数据。仅允许将本数据集及其配套信息用于非商业性研究与教育用途,明确禁止将其用于商业教育或演示用途。请引用/致谢:P. van der Putten与M. van Someren(编辑). 《CoIL Challenge 2000:保险公司案例》. 由阿姆斯特丹Sentient Machine Research出版,同时作为莱顿高等计算机科学研究所技术报告2000-09,2000年6月22日。[网页链接] 原始所有者与捐赠者:Peter van der Putten Sentient Machine Research Baarsjesweg 224 1058 AA Amsterdam 荷兰 +31 20 6186927 邮箱:pvdputten '@' hotmail.com,putten '@' liacs.nl TIC基准测试主页:http://www.liacs.nl/~putten/library/cc2000/
提供机构:
帕依提提
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
保险公司基准(COIL2000)数据集包含86个变量的客户信息,涵盖社会人口统计和产品使用数据,用于预测客户是否拥有旅行队保险单。数据集分为5822条训练记录和4000条测试记录,适用于非商业研究和教育用途。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务