StubHub Ticket Marketplace Dataset
收藏github2026-04-03 更新2026-04-04 收录
下载链接:
https://github.com/rebrowser/stubhub-dataset
下载链接
链接失效反馈官方服务:
资源简介:
每日更新的StubHub转售票务列表、事件和场馆数据,包含座位详情、交付类型和可用性数据,涵盖体育、音乐会和剧院等多个领域。
Daily updated StubHub secondary ticketing listings, event and venue datasets containing seat details, delivery types and availability data, covering multiple fields such as sports, concerts and theater.
创建时间:
2026-03-04
原始信息汇总
StubHub Ticket Marketplace 数据集概述
数据集基本信息
- 数据来源:StubHub 票务转售市场。
- 数据内容:包含 StubHub 上体育赛事、音乐会和戏剧演出的转售票列表、事件和场馆的每日快照,涵盖座位详情、交付类型和可用性数据。
- 数据实体:包含 3 个实体,分别为 Event Listings(票务列表)、Events(事件)和 Venues(场馆)。
- 更新状态:数据更新至 2026-04-02。
- 记录总数:完整数据集包含约 1.022 亿条记录。
- 预览样本:当前仓库为完整数据集的预览样本,样本量有限。
- 完整数据集:完整数据集需通过 https://rebrowser.net/products/datasets/stubhub 获取。
- 研究用途:学术研究可能符合免费获取更大数据切片的资格,详情见 https://rebrowser.net/free-datasets-for-research。
数据实体详情
1. Event Listings(票务列表)
- 描述:StubHub 上按事件划分的票务列表,包含分区、排、座位、数量、交付类型、票务等级和创建时间戳。
- 记录总数:102,147,945 条。
- 时间范围:2024-03-31 至 2026-03-22。
- 样本量:最多 30,000 行(占完整数据集的 0.03%)。
- 数据格式:每日导出一个文件,每个文件最多 1,000 行,保留最近 30 天数据。
- 关键字段:
listingId:唯一列表 ID。eventId:关联的事件 ID。price:含所有费用的票价(美元)。faceValue:票面价值(美元)。section:分区名称/编号。row:排。seat:座位范围。quantity:可用票数。availableQuantities:可购买数量。ticketClassName:票务等级名称。ticketTypeName:票务交付类型。isSeatedTogether:座位是否相邻。createdAt:列表创建时间戳。
- 高级字段:部分字段(如
price、faceValue、starRating、dealScore、discount、seatQualityScore)在数据文件中被替换为[PREMIUM],需通过 https://rebrowser.net/products/datasets/stubhub 获取真实值。 - 字段分布示例:
- 交付类型分布:Mobile Transfer ticket(71.7%)、Mobile ticket(23.1%)、Print-at-Home ticket(1.2%)等。
- 票务等级分布:Upper(42.3%)、Lower(25.8%)、Balcony(7.7%)等。
2. Events(事件)
- 描述:StubHub 事件的每日快照,包含开始时间、场馆 ID、可用性状态和事件类型标志,用于市场级跟踪。
- 记录总数:6,825 条。
- 时间范围:2025-10-05 至 2026-03-22。
- 样本量:最多 6,825 行(占完整数据集的 100.0%)。
- 数据格式:每日导出一个文件,每个文件最多 1,000 行,保留最近 30 天数据。
- 关键字段:
eventId:唯一 StubHub 事件 ID。name:完整事件名称。url:事件的完整 StubHub URL。eventStartDatetime:事件开始时间(UTC)。eventState:事件状态代码。eventAvailabilityState:事件可用性状态。venueId:StubHub 场馆 ID。hasActiveListings:事件是否有活跃票务列表。isUnderHundred:事件是否有低于 100 美元的票。
- 高级字段:部分字段(如
minPrice、ticketsRemaining、isFastSelling)在数据文件中被替换为[PREMIUM],需通过 https://rebrowser.net/products/datasets/stubhub 获取真实值。 - 字段分布示例:
- 事件状态分布:状态 1(活跃,81.7%)、状态 11(TBD,15.7%)等。
3. Venues(场馆)
- 描述:StubHub 场馆目录,包含名称、城市、国家和时区偏移,用于地理和场馆级事件分析。
- 记录总数:182 条。
- 时间范围:2025-10-05 至 2026-03-22。
- 样本量:182 行(占完整数据集的 100.0%)。
- 数据格式:每日覆盖的单个文件。
- 关键字段:
venueId:唯一 StubHub 场馆 ID。name:场馆名称。addressCity:场馆所在城市。addressFull:完整场馆位置。addressCountryCode:国家代码。addressCountry:完整国家名称。timezoneOffset:相对于 UTC 的时区偏移(毫秒)。
- 字段分布示例:
- 按国家分布的场馆:美国(91.2%)、加拿大(4.4%)、英国(1.6%)等。
预构建视图
Rebrowser 网络查看器提供交互式过滤、排序和导出功能。部分预构建视图示例如下:
- Event Listings:高交易评分列表、含票面价值数据的列表、移动转售票列表、下层票务列表、多票列表等。
- Events:有活跃列表的事件、活跃事件、快速销售事件、即将发生的事件、票价低于 50 美元的事件等。
- Venues:美国场馆、加拿大场馆、国际场馆、北美场馆、按城市划分的场馆等。 完整视图列表可通过以下链接访问:
- Event Listings: https://rebrowser.net/products/datasets/stubhub/event-listings
- Events: https://rebrowser.net/products/datasets/stubhub/events
- Venues: https://rebrowser.net/products/datasets/stubhub/venues
使用案例
- 转售库存分析:研究不同事件类型和场馆的票务列表模式,分析分区、排和交付方式如何影响二级市场的库存分布。
- 事件供应跟踪:监控即将发生事件的列表速度,识别哪些事件拥有最活跃的转售库存,以及供应如何随着事件日期临近而变化。
- 场馆座位研究:绘制各场馆的座位分区分布图,比较票务等级细分以了解场馆布局模式和列表密度。
- 交付方式趋势:跟踪不同事件类别中从实体票到移动票交付的转变,分析哪些交付类型在特定事件类型和场馆中占主导地位。
数据访问与许可
- 完整数据集:需通过 https://rebrowser.net/products/datasets/stubhub 获取。
- 功能:支持通过 Web UI 过滤、按需导出(CSV、JSON、JSONL、Parquet)、API 访问、选择数据新鲜度、按需选择字段。
- 定价:起价为每 1,000 行 2 美元,提供批量折扣。详情见 https://rebrowser.net/pricing。
- 许可:研究和非商业用途免费,需注明出处。商业用途需要付费许可。使用条款受 https://rebrowser.net/terms-of-use 约束。
- 引用格式:提供 BibTeX 引用格式。
- 其他平台:此数据集也可在 Kaggle、HuggingFace、Zenodo 找到。
免责声明
Rebrowser 是独立的数据提供商,与 StubHub 无隶属、认可或赞助关系。此数据集汇编自公开可用信息。使用者需自行确保数据使用的准确性和合法性。
搜集汇总
数据集介绍

构建方式
在二级票务市场研究领域,StubHub票务市场数据集通过系统化的数据采集方法构建而成。该数据集每日对StubHub平台上的票务列表、事件和场馆信息进行快照抓取,覆盖体育赛事、音乐会和剧院演出等多种活动类型。数据采集过程遵循结构化原则,将信息划分为事件列表、事件详情和场馆目录三个独立实体,每个实体均以Parquet格式存储,并包含首次发现与最后更新时间戳,确保了数据的时间序列完整性与可追溯性。
特点
该数据集展现出多维度的结构性特征,其核心优势在于对票务市场微观细节的全面捕捉。事件列表实体包含超过一亿条记录,详细记载了票面分区、排号、座位范围、票务类别及交付方式等字段,并创新性地引入了交易评分、座位质量评分等衍生指标。数据集通过动态更新机制保持时效性,同时采用分层数据模型,支持通过事件ID和场馆ID进行多表关联分析,为研究二级市场定价机制和库存分布提供了丰富的维度。
使用方法
研究人员可通过多种技术路径利用该数据集开展实证分析。基础操作包括使用Pandas等工具读取Parquet格式文件,进行跨实体关联查询与时间序列聚合。数据集支持对票务交付方式演变、场馆座位分布模式等主题进行纵向研究,也可通过预构建视图快速筛选高评分交易或特定票务类别。对于需要完整数据的研究项目,可通过Rebrowser平台按需选择数据子集,并灵活导出为CSV或JSON等格式,满足不同分析场景的需求。
背景与挑战
背景概述
在数字经济蓬勃发展的背景下,二级票务市场作为连接消费者与现场娱乐活动的重要渠道,其动态定价与库存管理机制日益成为经济学与数据科学交叉领域的研究焦点。StubHub票务市场数据集由独立数据提供商Rebrowser于2026年发布,旨在通过每日快照形式,系统性地捕捉StubHub平台上体育赛事、音乐会及剧院演出等活动的票务列表、事件详情与场馆信息。该数据集涵盖了超过1.02亿条票务列表记录,并整合了事件状态、座位详情、交付方式及价格指标等关键字段,为研究人员深入探究二级市场的价格形成机制、供需动态及消费者行为模式提供了前所未有的微观数据基础。其多实体关联结构支持从宏观市场趋势到微观座位层级的跨尺度分析,显著推动了娱乐经济学与计算社会科学领域的实证研究进程。
当前挑战
该数据集致力于解析二级票务市场的复杂动态,其核心挑战在于如何从海量、高维且实时变动的票务列表中,精准建模价格波动的影响因素与市场效率。具体而言,研究者需应对座位属性稀疏性、价格字段部分加密以及事件状态频繁变更所带来的数据异质性难题,同时还需克服因数据采集频率与市场实际交易速度之间的滞后性所导致的分析偏差。在构建层面,数据集面临大规模实时爬取与清洗的技术瓶颈,包括对动态网页结构的适应性解析、反爬虫机制的规避,以及多源异构数据实体间的一致性关联。此外,确保数据在符合平台服务条款与隐私法规的前提下,维持高覆盖率与时效性,亦是持续更新的关键挑战。
常用场景
经典使用场景
在二级票务市场研究领域,StubHub票务市场数据集为分析动态定价与库存分布提供了核心实证基础。该数据集通过捕捉每日票务列表的快照,涵盖价格、座位详情及交付方式等维度,使得研究者能够深入探究体育赛事、音乐会等现场活动中门票转售的微观模式。经典应用场景包括追踪特定赛事临近时票价的波动轨迹,以及不同票务类别(如上层、下层座位)在供需关系影响下的库存变化规律。
衍生相关工作
基于该数据集,学术界已衍生出多项经典研究工作。例如,有研究利用其构建了场馆座位图的价值映射模型,量化了不同视角座位的隐性溢价;另有工作聚焦于交付方式(如移动票务与传统纸质票)的演变如何影响转售市场的流动性。这些研究不仅推动了计算社会科学在娱乐产业中的应用,也为后续关于数字票务安全性与市场透明度的探讨奠定了数据基础。
数据集最近研究
最新研究方向
在二级票务市场研究领域,StubHub数据集正推动着前沿探索。研究者们借助其海量票务清单、事件及场馆数据,深入分析动态定价机制与市场供需关系,尤其在大型体育赛事和演唱会期间,价格波动与库存变化成为热点议题。该数据集还支持对数字化票务交付趋势的量化研究,揭示了移动票务主导下的市场转型。这些研究不仅为理解消费者行为提供了实证基础,也对票务市场的监管与透明度提升具有重要参考价值。
以上内容由遇见数据集搜集并总结生成



