five

GD-ML/TransitLM

收藏
Hugging Face2026-05-08 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/GD-ML/TransitLM
下载链接
链接失效反馈
官方服务:
资源简介:
TransitLM是一个用于中文城市环境中公共交通路线规划的数据集。它旨在支持训练和评估能够根据起点-终点信息生成结构化交通路线的语言模型。完整数据集覆盖了北京、上海、深圳和成都四个中国城市的交通规划数据,包括路线相关信息如坐标、站点序列、换乘结构、线路信息和路线注释。

TransitLM is a dataset for public transit route planning in Chinese urban environments. It is designed to support training and evaluation of language models that generate structured transit routes from origin-destination information. The full dataset covers transit planning data from four Chinese cities: Beijing, Shanghai, Shenzhen, and Chengdu. It includes route-related information such as coordinates, station sequences, transfer structure, line information, and route annotations.
提供机构:
GD-ML
搜集汇总
数据集介绍
main_image_url
构建方式
TransitLM数据集专为中文城市环境下的公共交通路线规划任务而设计,其构建过程融合了来自北京、上海、深圳和成都四个典型中国城市的交通规划数据。数据集以出行起讫点信息为核心输入,通过系统化采集坐标序列、站点顺序、换乘结构、线路属性及路线注释等多维度信息,构建出结构化的公共交通路线样本。这些样本经过精细的清洗与标注,最终形成可用于指令微调与基准测试的高质量语料库,支撑语言模型学习从起点到终点的路线生成能力。
特点
该数据集具有显著的多城市覆盖特性,整合了四个不同规模和交通网络形态的中国一线及新一线城市数据,确保了地理与运营模式上的多样性。其核心特点在于包含丰富的结构化路线信息,如精确的坐标点、站点拓扑关系、换乘逻辑及线路归属,这些要素共同构成了复杂的语义空间。此外,数据集通过详尽的路线注释与换乘结构标注,为语言模型提供了学习公共交通网络时空关联性的关键线索,从而具备支撑高精度、可解释路线生成任务的独特优势。
使用方法
TransitLM主要用于对语言模型进行指令微调与基准评估,研究者可将起讫点信息作为输入提示,引导模型生成包含站点序列与换乘方案的完整路线。该数据集兼容标准的文本生成任务格式,可直接接入Hugging Face的Transformers库进行数据加载与预处理。建议使用时将结构化路线信息转化为自然语言指令-响应对,以充分发挥模型在语义理解与结构化输出上的能力。由于数据集正在逐步上传,当前可用文件仅为完整集合的一部分,用户需关注后续更新以获取全量数据。
背景与挑战
背景概述
随着城市化进程的加速,公共交通路线规划成为智慧城市建设的核心议题之一。现有研究多依赖传统图论与运筹学方法,难以有效结合自然语言理解来处理复杂的多模态出行需求。TransitLM数据集由研究团队于近年创建,聚焦于中国四大城市(北京、上海、深圳、成都)的公共交通路线规划问题,旨在为语言模型提供结构化的路线生成训练与评测基准。该数据集覆盖站点序列、换乘结构、线路信息及路线标注等关键要素,填补了中文环境下公共交通领域指令微调数据的空白,对推动语言模型在智慧交通场景中的实际应用具有重要影响力。
当前挑战
该数据集所解决的领域问题挑战在于,传统路线规划方法难以灵活应对自然语言描述的多样化出行意图,且缺乏支持模型学习换乘逻辑与地理语义的标准化资源。在构建过程中,面临的主要挑战包括:多城市公交网络拓扑结构的异构性与数据格式不一致性,需统一坐标系统与站点命名规范;路线标注需精准捕捉换乘点与线路逻辑,避免歧义;此外,数据集当前仍处于增量上传阶段,部分数据未完整发布,可能影响模型泛化能力的充分评估与基准测试的公平性。
常用场景
经典使用场景
TransitLM数据集专为中文城市环境下的公共交通路线规划任务而设计,其经典使用场景是将语言模型微调为能够根据起始地与目的地信息自动生成结构化公交路线的智能系统。研究者可借助该数据集中的坐标、站点序列、换乘结构及线路信息,训练模型输出包含多模态细节的路线描述,从而评估模型在复杂交通网络中的推理与规划能力。
实际应用
在实际场景中,TransitLM可嵌入智能出行助手或公共服务系统,帮助用户通过自然语言输入获取精准的公交导乘方案。例如,市民只需说出起止地点,系统便能结合实时路况与换乘策略输出最优路线。此外,该数据集还可用于城市交通规划中的客流模拟与线路优化分析,为数字化交通治理提供数据驱动的决策支持,提升公众的出行体验与效率。
衍生相关工作
基于TransitLM,学者已衍生出多项经典工作,包括面向多城市泛化的跨域路线规划模型、融合道路拓扑与语言描述的时空推理框架,以及采用指令微调策略提升长距离换乘预测准确率的研究。这些工作进一步探索了语言模型在结构化轨迹生成、动态路由引导和低资源城市适应等方向上的潜力,共同构建了中文公交路线规划的研究生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作