five

Hitchhiking Rides Dataset

收藏
arXiv2025-06-27 更新2025-07-01 收录
下载链接:
https://huggingface.co/datasets/Hitchwiki/hitchhiking-rides-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集由Hitchwiki.org收集,包含了超过63,000条搭车记录,这些记录跨越了近二十年的时间,主要通过hitchwiki.org平台及其相关网站hitchmap.com收集。数据集捕捉了搭车行为的关键时空和策略性方面,包括出发地、目的地、等待时间、搭车策略、搭车者昵称、搭车时间、评论和评分等信息。数据集具有欧洲中心分布、季节性模式以及对少数活跃贡献者的依赖等特点。尽管存在人口统计偏差和无法验证的条目等局限性,但该数据集为研究搭车作为一种交通方式和一种文化现象提供了宝贵的机会。

This dataset, collected by Hitchwiki.org, contains over 63,000 hitchhiking records spanning nearly two decades, primarily gathered via the Hitchwiki.org platform and its affiliated website, hitchmap.com. It captures key spatiotemporal and strategic aspects of hitchhiking behavior, including information such as departure location, destination, waiting time, hitchhiking strategies, nicknames of hitchhikers, trip time, comments, and ratings. The dataset exhibits characteristics including a Eurocentric distribution, seasonal patterns, and reliance on a small number of active contributors. Despite limitations such as demographic bias and unverified entries, this dataset provides a valuable opportunity to study hitchhiking as both a transportation mode and a cultural phenomenon.
提供机构:
Hitchwiki.org
创建时间:
2025-06-27
原始信息汇总

最大搭便车行程数据集概述

基本信息

  • 数据集名称: Largest Dataset of Hitchhiking Rides
  • 许可证: Open Data Commons Open Database License (ODbL)
  • 任务类别: 表格回归
  • 语言: 英语(en)、法语(fr)、德语(de)、荷兰语(nl)
  • 标签: 移动性(mobility)、搭便车(hitchhiking)、交通(transport)
  • 数据规模: 10K<n<100K
  • 下载大小: 6,888,947字节
  • 数据集大小: 14,602,124字节
  • 训练集样本数: 63,291

数据集描述

  • 创建者: Till Wenke
  • 数据来源: 自2005年起从在线平台(如liftershalte.info、hitchwiki.org和hitchmap.com)收集的众包数据
  • 目的: 为搭便车者提供数据支持,帮助其做出更明智的决策;研究搭便车作为一种文化现象

数据集结构

特征

  • stops:
    • arrival_time: 字符串
    • departure_time: 字符串
    • location:
      • is_exact: 布尔值
      • latitude: 浮点数
      • longitude: 浮点数
    • waiting_duration: 字符串
  • rating: 整数
  • hitchhikers:
    • gender: 空值
    • hitchhiking_since: 空值
    • languages: 空值
    • nickname: 字符串
    • origin_country: 空值
    • origin_location: 空值
    • reasons_to_hitchhike: 空值
    • was_driver: 空值
    • year_of_birth: 空值
  • comment: 字符串
  • signals:
    • asking_content: 空值
    • asking_languages: 空值
    • duration: 空值
    • methods: 字符串序列
    • sign_content: 空值
    • sign_languages: 空值
    • total_solicited: 空值
  • occupants: 空值
  • mode_of_transportation: 空值
  • ride: 空值
  • declined_rides: 空值
  • source: 字符串
  • license: 字符串
  • submission_time: 字符串

数据来源与许可

  • 部分数据来自hitchwiki.org,采用CC BY-SA 4.0许可
  • 部分数据来自hitchmap.com,采用ODbL许可

使用案例

  • 数据科学用途: 等待时间预测(回归任务),例如在"Heatchmap: A Gaussian process approach to predict hitchhiking waiting times"中应用

数据集创建与限制

  • 数据集结构遵循搭便车数据标准(Hitchhiking Data Standard)
  • 相关论文已发布在arXiv上

引用

  • BibTeX: [More Information Needed]

数据集作者

  • Till Wenke
搜集汇总
数据集介绍
main_image_url
构建方式
Hitchhiking Rides Dataset的构建源于近二十年来通过hitchwiki.org和hitchmap.com等平台众包的搭车记录。该数据集最初由德国搭车协会Abgefahren e.V.在2005年发起,随后在2005年12月由liftershalte.info项目以更结构化的形式记录搭车信息,奠定了数据集的基础。2010年8月,数据迁移至hitchwiki.org/maps,并引入了用户账户系统,使得搭车记录能够与特定搭车者的个人资料关联。2022年10月,平台被重新部署为hitchmap.com,进一步扩展了功能集并持续维护。数据集的构建过程体现了社区驱动的特点,依赖于高度活跃的贡献者群体。
特点
Hitchhiking Rides Dataset的核心特点在于其捕捉了搭车行为的时空随机性和策略性。数据集包含63,165条记录,主要分布在欧洲地区,具有明显的季节性特征,夏季记录数量约为冬季的两倍。每条记录包含起始位置的地理坐标、目的地字段、提交时间戳、等待时间、用户昵称或账户信息以及用户评论等。数据集还记录了搭车者使用的搭车方法(如拇指、标志牌等)和主观评价,如搭车点的质量评分。这些多维度的数据不仅记录了搭车的物流信息,还反映了搭车体验的细微差别。
使用方法
Hitchhiking Rides Dataset的使用方法多样,既可用于学术研究,也可用于实际搭车规划。研究者可利用该数据集进行时空分析,探索区域、季节和基础设施对搭车成功率的影响。数据集中的等待时间数据可用于评估不同地区的搭车可行性,而用户评论和评分则提供了定性分析的素材。实际搭车者可通过可视化工具(如hitchmap.com)查看历史搭车记录,优化自己的搭车策略。数据集遵循Hitchhiking Data Standard,支持未来去中心化的数据收集和扩展。使用该数据集时需注意其地理和人口统计偏差,以及数据真实性的验证问题。
背景与挑战
背景概述
Hitchhiking Rides Dataset是由独立研究员Till Wenke与hitchwiki.org社区合作创建的一个关于搭便车行为的开源数据集,首次发布于2025年。该数据集收录了跨越近二十年的63,000余条全球搭便车记录,主要通过hitchwiki.org和hitchmap.com平台众包采集。作为首个系统化记录非正式出行方式的大规模时空数据库,其核心价值在于揭示了搭便车这一随机性出行行为的地理分布模式、季节特征及等待时间规律。数据集不仅填补了交通人类学研究的数据空白,更通过社区驱动的数据采集模式,为研究非制度化出行方式提供了创新范式。
当前挑战
该数据集面临三重核心挑战:在研究层面,搭便车行为的强随机性和非标准化特征导致传统交通模型的适用性受限,需开发新的分析框架;在数据质量方面,众包机制带来的地理偏差(欧洲记录占比过高)和人口偏差(82%为男性贡献者)影响了数据的普适性;在技术实现上,历史数据因平台迁移导致部分字段缺失,且用户生成内容的真实性验证存在固有困难。此外,缺乏司机特征、搭车者人口统计等关键元数据,限制了社会行为学研究的深度。
常用场景
经典使用场景
Hitchhiking Rides Dataset作为全球范围内规模最大的搭车行为结构化数据集,其经典应用场景聚焦于揭示非正式交通行为的时空规律。该数据集通过整合近20年来自hitchwiki.org和hitchmap.com平台的63,000余条众包记录,为研究者提供了分析搭车等待时间、路线选择策略及季节性波动的基础。尤其在欧洲区域,数据集中高密度的地理标记使得学者能够绘制出搭车热点分布图,并建立等待时间与道路类型、区域文化的关联模型。
解决学术问题
该数据集有效解决了传统交通研究中难以量化非正式出行行为的学术难题。通过捕捉真实发生的搭车事件而非实验模拟数据,它弥补了早期研究如Crassweller等人(1972)的小规模实验局限。数据集中的时空标记和用户评价字段,使研究者能够验证性别差异对搭车成功率的影响(Kotz 2017),并分析基础设施条件(Vedernikov 2016)等关键因素,为交通人类学提供了实证基础。
衍生相关工作
围绕该数据集衍生的经典工作包括三个方向:其一是Wenke(2024a)开发的高斯过程模型,通过历史等待时间预测区域搭车可行性;其二是Hitchhiking Data Standard的制定,建立了跨平台数据采集规范;其三是基于评论文本的质性研究,如分析搭车者与司机互动模式的文化研究。这些工作共同推动了非正式交通研究从经验描述向数据驱动范式的转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作