naidu1999/tourism-dataset
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/naidu1999/tourism-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含客户信息与旅游产品推销相关的数据,用于预测客户是否接受产品(ProdTaken)。特征包括客户ID、年龄、联系方式类型、城市等级、推销时长、职业、性别、访问人数、跟进次数、推荐产品、偏好酒店星级、婚姻状况、旅行次数、护照持有、推销满意度评分、自有车辆、儿童访问人数、职位和月收入等。数据集共有4128个训练样本,适用于分类或分析任务。
This dataset contains customer information related to travel product pitching, aimed at predicting whether a customer accepts the product (ProdTaken). Features include CustomerID, age, type of contact, city tier, duration of pitch, occupation, gender, number of persons visiting, number of follow-ups, product pitched, preferred property star, marital status, number of trips, passport ownership, pitch satisfaction score, car ownership, number of children visiting, designation, and monthly income. The dataset consists of 4128 training examples and is suitable for classification or analysis tasks.
提供机构:
naidu1999
搜集汇总
数据集介绍

构建方式
旅游数据集(tourism-dataset)的构建源于对旅游行业客户行为与营销转化的深入洞察。该数据集整合了客户个人属性、旅行偏好及销售互动等多维度信息,共包含4128条训练样本,每条记录由21个字段构成,涵盖客户ID、年龄、性别、职业、婚姻状况等人口统计学特征,以及出行人数、随行儿童数、护照持有情况等旅行相关变量,同时纳入产品推介时长、客户跟进次数、产品演示满意度等销售过程指标。数据以CSV格式存储,通过HuggingFace Datasets库加载使用,其结构清晰,便于直接开展分类与回归任务。
特点
该数据集的核心特点在于其多维度的特征融合与明确的二分类标签(ProdTaken)。一方面,它整合了客户静态属性(如收入、职业)与动态行为数据(如跟进次数、推介时长),能够全面刻画潜在旅游产品购买者的画像。另一方面,数据涵盖了销售漏斗中的关键节点,包括客户来源类型、偏好酒店星级、过往旅行次数等,为分析从客户接触到最终转化的全链路影响因素提供了丰富的变量。此外,数据集中存在部分数值型字段的缺失值,这为开展缺失值处理与特征工程实践提供了真实场景。
使用方法
数据集的使用主要面向机器学习中的二分类预测任务,即根据客户特征预测其是否购买旅游产品(ProdTaken)。研究者可借助HuggingFace Datasets库的load_dataset函数直接加载数据,随后将标签列(ProdTaken)与特征列分离,进行数据预处理,包括对年龄、月收入等连续型变量进行标准化或分箱,对职业、性别等类别变量进行编码。缺失值处理可采用均值填补或模型预测方法。模型训练建议采用逻辑回归、随机森林或梯度提升树等算法,并利用交叉验证评估泛化性能,最终通过准确率、召回率及F1分数等指标衡量预测效果。
背景与挑战
背景概述
旅游行业作为全球经济的重要支柱,其数字化转型催生了大量客户行为数据,为精准营销与个性化服务提供了可能。tourism-dataset正是应此背景而生,由研究机构或企业构建,旨在探索游客旅游产品购买意向的预测问题。该数据集创建时间不详,包含4128条训练样本,涵盖客户年龄、职业、婚姻状况、月收入等人口统计学特征,以及旅行次数、护照持有情况、推荐满意度等行为变量,核心研究问题是如何利用多维特征预测客户是否购买旅游产品(ProdTaken)。该数据集为旅游推荐系统、客户细分与消费预测等领域提供了基础数据支持,推动了数据驱动型旅游营销策略的发展。
当前挑战
该数据集所解决的领域问题是旅游产品购买意向预测,面临的主要挑战包括:客户行为的高度异质性与非线性关系,使得传统统计模型难以有效捕捉多因素间的复杂交互;数据中类别特征(如职业、联系方式类型)需进行合适的编码转换,连续特征(如年龄、收入)则存在缺失与异常值问题。构建过程中,从原始客户数据库提取特征时需处理销售跟进次数、推荐评分等字段的数据稀疏性,同时确保客户隐私合规;最终数据集仅含4128条样本,小样本量下模型易过拟合,需谨慎选择特征工程与正则化策略以提升泛化能力。
常用场景
经典使用场景
旅游业作为全球经济的重要支柱,其客户行为分析与营销策略优化一直是学术界与工业界关注的焦点。tourism-dataset数据集汇聚了客户个人特征、旅行偏好、产品交互记录等多维信息,为数据驱动的旅游研究提供了坚实的数据基础。其最经典的使用场景在于构建客户购买意向预测模型,通过分析年龄、收入、职业、婚姻状况、过往旅行次数等特征,运用逻辑回归、随机森林或梯度提升树等算法,精准预测客户是否愿意购买旅游产品(ProdTaken)。这一场景不仅验证了特征工程与模型选型的有效性,也为后续的个性化推荐系统研究奠定了方法基石。
解决学术问题
tourism-dataset数据集有效解决了旅游营销领域长期存在的客户细分与购买行为预测难题。在传统研究中,由于缺乏高维异构特征的综合数据集,学者难以构建鲁棒的预测模型来量化客户购买意向。该数据集通过整合人口统计学变量(如年龄、收入、性别)与旅游行为变量(如跟团偏好、旅游次数、护照持有情况),使得研究者能够系统评估不同特征对购买决策的贡献度,并揭示诸如销售满意度评分、客户职业类型等关键驱动力。这一突破不仅深化了对旅游消费决策机制的理解,还推动了数据挖掘技术在旅游管理中的理论发展,为构建更加精准的客户响应模型提供了实证支持。
衍生相关工作
tourism-dataset数据集催生了一系列经典的学术研究与技术探索。基于该数据,学者们发表了多篇关于旅游客户流失预测与交叉销售策略的论文,其中引入SMOTE过采样技术处理类别不平衡问题成为主流方法之一。此外,研究者还衍生出客户价值分层模型,通过RFM(最近消费时间、消费频率、消费金额)框架结合该数据集的特征,构建了更为精细的客户终身价值评估体系。在特征工程方面,该数据推动了基于深度学习的自动特征提取方法,例如利用AutoEncoder对离散型客户属性进行嵌入表示,显著提升了模型的泛化性能。这些衍生工作不仅丰富了旅游数据挖掘的理论体系,也为后续研究提供了可复用的基准与创新起点。
以上内容由遇见数据集搜集并总结生成



