Sagar-143/tourism-package-test

Name: Sagar-143/tourism-package-test
Creator: Sagar-143
Published: 2026-04-30 18:22:00
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Sagar-143/tourism-package-test

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与旅游产品相关的客户信息，特征包括年龄、城市等级、推销持续时间、访问人数、跟进次数、偏好的酒店星级、旅行次数、是否持有护照、推销满意度评分、是否拥有汽车、随行儿童数量、月收入等。此外，还包含客户联系类型、职业、性别、推销产品类型、婚姻状况和职位等分类变量的独热编码。目标变量可能是ProdTaken，表示客户是否购买了旅游产品。

This dataset contains customer information related to travel products, including features such as age, city tier, duration of pitch, number of people visiting, number of follow-ups, preferred property star rating, number of trips, passport ownership, pitch satisfaction score, car ownership, number of children visiting, monthly income, etc. It also includes one-hot encoded categorical variables for contact type, occupation, gender, product pitched, marital status, and designation. The target variable is likely ProdTaken, indicating whether the customer purchased the travel product.

提供机构：

Sagar-143

搜集汇总

数据集介绍

构建方式

本数据集基于旅游行业客户行为数据构建，涵盖了客户在旅游产品咨询与购买过程中的多维特征。原始数据经过清洗与预处理，剔除了缺失值及异常记录，最终保留了826条有效样本。数据集包含连续型变量如年龄、月收入、销售沟通时长，以及离散型变量如城市等级、护照持有情况、过往旅行次数等。此外，针对分类特征如职业、性别、婚姻状态、产品类型等，采用独热编码进行转换，形成布尔型特征列，以便于机器学习模型的直接使用。数据集以单一训练集形式存储，体积约为100KB，兼顾了数据规模与代表性。

特点

数据集的突出特点在于其丰富的特征维度，涵盖了人口统计学信息、客户行为偏好、销售互动记录以及产品选择倾向等多个层面。其中，PitchSatisfactionScore与DurationOfPitch等变量反映了销售沟通过程的质量与效率，而ProdTaken作为目标变量，指示客户是否最终购买了旅游套餐，形成了明确的分类任务。该数据集还包含了通过独热编码处理的分类特征，避免了序数假设带来的偏差，适合用于二分类模型训练与评估。整体特征设计兼顾了业务逻辑与数据科学性，能够有效支持旅游产品购买预测等下游任务。

使用方法

数据集可通过HuggingFace Datasets库加载使用。用户只需调用load_dataset('tourism-package-test')即可获取训练数据。加载后的数据集包含32列特征，其中ProdTaken作为预测目标，其余均为输入特征。建议采用交叉验证方法评估模型性能，如逻辑回归、梯度提升树或神经网络等分类器。由于数据规模较小，训练和推理计算开销较低，适合用于教学演示或快速原型开发。此外，部分连续特征如MonthlyIncome可能存在尺度差异，用户在使用前应进行标准化或归一化处理，以提升模型收敛速度与预测精度。

背景与挑战

背景概述

旅游产品推荐是旅游管理领域的一项核心任务，旨在通过分析潜在客户的个体特征与行为模式，精准预测其对特定旅游套餐的购买意向。该数据集由研究机构或企业于近年来构建，包含826个训练样本，涵盖了客户的年龄、城市等级、收入、家庭成员数、出行历史，以及基于产品类型、职业、婚姻状况、性别等维度进行独热编码后的31个特征变量，核心研究问题为基于多维度客户画像对“ProdTaken”（是否购买旅游产品）进行二分类预测。该数据集为旅游营销领域的客户意向预测提供了标准化的基准资源，推动了从传统经验式营销向数据驱动决策的转变，对精准推荐系统与客户关系管理的研究具有重要参考价值。

当前挑战

在领域问题上，旅游套餐购买的预测面临数据高度不平衡的挑战，即实际购买样本往往远少于未购买样本，导致模型偏向多数类，难以识别具有高意向的潜在客户；同时，客户决策受季节、经济环境、促销活动等外部变量影响，而这些上下文信息未被纳入特征空间，增加了预测的模糊性。在数据集构建过程中，初始特征的选取依赖业务假设可能引入偏差，而独热编码导致的特征维度稀疏化（如职业与产品类型）使得模型难以有效学习交互模式，加之样本量仅826例，对复杂非线性关系的捕捉能力受限，需在特征工程与采样策略上寻求突破。

常用场景

经典使用场景

旅游套餐预测数据集（tourism-package-test）是旅游营销与消费者行为研究领域中的一颗明珠，其核心经典应用在于构建客户购买意向预测模型。研究人员可借助该数据集中涵盖的客户人口统计特征（如年龄、月收入、子女数量）、旅行偏好（如偏好酒店星级、过往旅行次数）以及互动行为（如推销时长、跟进次数）等多维信息，通过训练逻辑回归、随机森林或梯度提升树等机器学习模型，精准预测潜在顾客是否接受旅游套餐推介。这一场景不仅为旅游企业的精准营销提供了数据根基，更推动了预测模型在旅游消费决策分析中的智能化演进。

实际应用

在旅游产业的真实运营中，此数据集的实际应用价值体现在客户细分与个性化推荐系统的构建。旅行社及在线旅游平台可利用该数据对客户群体进行精细分层，例如区分高转化潜力的“商务型客户”与更青睐家庭游的“休闲型客户”，并据此设计差异化的套餐推荐策略。此外，基于推销满意度评分与跟进次数等特征，从业者可优化销售流程，将资源高效集中于意向强烈的客户，从而提升整体营销的投资回报率。这一应用不仅降低了冷启动阶段的营销成本，更显著增强了旅游产品的市场适配度与客户体验。

衍生相关工作

围绕该数据集，学界与业界衍生出多项具有深远影响的经典工作，成为旅游者购买预测任务的标杆基准。其中，基于特征工程的集成学习模型（如XGBoost与LightGBM）被广泛用于处理类别不平衡与缺失值问题，推动了鲁棒性预测方法的迭代。更为前沿的工作包括利用深度神经网络从高维的二元特征（如婚姻状况、职业类型）中自动提取组合模式，以及将SHAP（Shapley Additive Explanations）可解释性框架引入旅游营销分析，揭示各驱动因子对购买概率的边际效应。这些衍生研究不仅丰富了旅游数据挖掘的方法论体系，也为其他垂直行业（如金融、零售）的客户预测模型提供了可借鉴的范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集