SeatGeek dataset
收藏arXiv2025-08-01 更新2025-08-07 收录
下载链接:
https://github.com/jonland82/seatgeek-beta-modeling
下载链接
链接失效反馈官方服务:
资源简介:
SeatGeek数据集由SeatGeek API提供,包含从2023年5月至2024年5月期间收集的音乐会门票定价详情的时间序列数据。该数据集覆盖了广泛的演出活动,从像Metallica和Taylor Swift这样的知名艺术家到新兴的地方表演。数据集被用于研究动态定价分布,以识别不同表演艺术家在二级门票转售市场的独特经济特征。该数据集通过分析门票定价分布,将票价分布建模为缩放Beta分布,并使用混合的百分位匹配和矩方法进行参数估计,从而提高了随机森林分类器的分类准确性。数据集还展示了如何将零方差(常数值)特征融入随机森林模型,以隐式正则化方式增强特征多样性和鲁棒性。该数据集对于研究动态定价分析具有重要价值,可用于市场预测、定价优化、金融建模、需求预测和供应链分析等领域。
The SeatGeek Dataset, provided by the SeatGeek API, contains time-series data detailing concert ticket pricing collected between May 2023 and May 2024. This dataset covers a broad spectrum of live entertainment events, ranging from renowned artists such as Metallica and Taylor Swift to emerging local live performances. It has been utilized in research on dynamic pricing distributions to identify the unique economic characteristics of different performing artists in the secondary ticket resale market. By analyzing ticket pricing distributions, this dataset models ticket price distributions as scaled Beta distributions, and employs a hybrid approach combining percentile matching and the method of moments for parameter estimation, thereby enhancing the classification accuracy of random forest classifiers. Additionally, the dataset demonstrates how to incorporate zero-variance (constant-value) features into random forest models, boosting feature diversity and robustness via implicit regularization. This dataset holds substantial academic value for dynamic pricing analysis research, and can be applied across multiple domains including market forecasting, pricing optimization, financial modeling, demand forecasting, and supply chain analysis.
提供机构:
SeatGeek
创建时间:
2025-08-01
搜集汇总
数据集介绍

构建方式
SeatGeek数据集是通过SeatGeek API收集的2023年5月至2024年5月期间美国境内约130,000场娱乐活动的动态票务价格数据。该数据集涵盖了15,400位艺术家和6,700个场馆的每日票价快照,包括最低价、最高价、平均价和中位数价格等关键统计指标。数据以时间序列形式组织,每个事件包含从开售日至活动日的完整价格生命周期记录,并通过复合分位数和矩匹配方法将票价分布建模为缩放Beta分布,以捕捉不同艺术家的独特经济特征。
特点
该数据集的核心特点在于其动态定价分布的独特表征能力。通过将票价分布参数化为缩放Beta分布,数据集不仅包含原始统计特征(最小值、最大值、均值、中位数),还衍生出刻画分布形状的α和β参数。这种双重表征使得数据集能够同时反映票价的集中趋势和分布形态差异,为艺术家分类提供了更丰富的特征空间。数据集的时空覆盖广度(全美范围全年数据)和艺术家的多样性(从顶级巨星到地方新兴艺人)进一步增强了其分析价值。
使用方法
该数据集主要应用于动态定价分析和艺术家经济特征识别。使用方法包括:1) 基于复合分位数和矩匹配算法估计缩放Beta分布参数;2) 将分布参数与原始统计特征结合构建增强特征向量;3) 采用随机森林等集成学习方法进行艺术家分类任务。特别地,通过引入零方差特征实现隐式正则化,可优化特征选择概率分布,提升模型鲁棒性。数据集还可用于研究二级票务市场的价格动态规律、需求预测以及不同艺术家的粉丝经济特征分析。
背景与挑战
背景概述
SeatGeek数据集是由Jonathan R. Landers于2025年7月发布的一个新颖的时间序列数据集,主要用于分析二级票务转售市场中的动态定价分布。该数据集通过SeatGeek API收集了2023年5月至2024年5月期间的娱乐活动票务价格详情,涵盖了从知名艺人如Metallica和Taylor Swift到新兴本地表演者的广泛活动范围。该数据集的核心研究问题是通过动态定价分布识别表演艺术家的独特经济签名,并利用这些签名改进随机森林分类器的分类准确性。该数据集在动态定价、金融建模和供应链分析等领域具有广泛的应用潜力。
当前挑战
SeatGeek数据集面临的挑战主要包括两个方面:1) 领域问题的挑战:该数据集旨在解决动态票务定价中的分类问题,但由于票务价格的动态性和复杂性,如何准确捕捉和建模不同艺术家的独特经济签名是一个重要挑战。2) 构建过程中的挑战:数据集构建过程中,由于仅能获取有限的统计信息(如最小值、最大值、均值和中位数),如何通过这些有限的数据准确估计票务价格的分布参数(如α和β)是一个技术难点。此外,如何在随机森林模型中有效利用这些参数以提高分类准确性,同时避免过拟合,也是一个重要的研究挑战。
常用场景
经典使用场景
SeatGeek数据集在动态票价预测领域具有广泛的应用,尤其在二级票务市场的价格分析和艺术家分类任务中表现突出。该数据集通过捕捉不同艺术家的票价分布特征,为研究者提供了丰富的时序数据,用于建模和分析票价动态变化。在论文中,作者利用SeatGeek数据集中的票价统计特征(如最小值、最大值、均值和四分位数)构建了基于Beta分布的参数估计模型,从而实现了对艺术家票价的精确分类。
实际应用
SeatGeek数据集的实际应用场景主要集中在二级票务市场的价格优化和需求预测中。通过分析不同艺术家的票价分布,票务平台可以更精准地制定动态定价策略,从而最大化收益并平衡供需关系。此外,该数据集还可用于金融建模和供应链分析,帮助决策者理解复杂市场中的分布模式。例如,平台可以利用这些模型预测热门演出的票价波动,并为用户提供更具竞争力的价格建议。
衍生相关工作
SeatGeek数据集的研究衍生了一系列经典工作,特别是在时间序列分类和隐式正则化领域。论文中提出的分位数匹配和矩匹配方法为后续研究提供了新的参数估计框架,而关于零方差特征的正则化效应的发现则启发了更多关于随机森林优化的研究。此外,该数据集的应用还推动了动态定价模型的发展,相关成果在金融、医疗资源分配和能源系统等多个领域得到了推广。
以上内容由遇见数据集搜集并总结生成



