Railway Training Dataset (RTD)

Name: Railway Training Dataset (RTD)
Creator: 北京交通大学自动化与智能学院
Published: 2025-01-14T12:41:03+08:00

arXiv2025-01-14 更新2025-01-16 收录

铁路

自然语言处理

数据链接：

http://arxiv.org/abs/2501.07837v1 数据链接链接失效反馈

官方服务：

资源简介：

Railway Training Dataset (RTD)是由北京交通大学自动化与智能学院构建的铁路领域特定微调数据集，包含10100条结构化问答对，涵盖铁路法律条款、铁路规章和铁路专业知识。数据集基于中国铁路机车和车辆驾驶员资格考试大纲构建，原始文本数据包含776,000个中文Token，分为法律条款、铁路规章和铁路专业知识三大类。该数据集旨在提升大语言模型在铁路领域的专业知识，特别是在故障处理场景中的应用。通过自动化处理策略生成问答对，并经过严格的数据过滤，最终用于铁路驾驶场景的对话支持。

Railway Training Dataset (RTD) is a railway domain-specific fine-tuning dataset constructed by the School of Automation and Intelligence, Beijing Jiaotong University. It contains 10,100 structured question-answer pairs covering railway legal provisions, railway regulations and railway professional knowledge. The dataset is built based on the qualification examination syllabus for Chinese railway locomotive and vehicle drivers. The original textual data includes 776,000 Chinese Tokens, and is divided into three categories: legal provisions, railway regulations and railway professional knowledge. This dataset aims to enhance the domain-specific knowledge of Large Language Models (LLMs) in the railway field, especially their application in fault handling scenarios. Question-answer pairs were generated via automated processing strategies, and after strict data filtering, the dataset is ultimately used for dialogue support in railway driving scenarios.

提供机构：

北京交通大学自动化与智能学院

创建时间：

2025-01-14

搜集汇总

数据集介绍

构建方式

Railway Training Dataset (RTD) 的构建过程基于中国铁路机车车辆驾驶员资格考试大纲，确保了数据集内容与行业标准的高度一致。通过自动化的数据处理策略，利用现有高性能大语言模型生成结构化的问答对，涵盖了法律条款、铁路规章和专业知识三大类别。具体而言，首先对文本进行分块处理，随后设计合适的提示词并结合少样本学习技术，生成与每个文本块相关的问题和答案。最终，经过严格的数据过滤和整合，形成了包含10,100个问答对的RTD数据集，为铁路驾驶场景的对话提供了数据支持。

使用方法

RTD数据集的使用方法主要分为两个阶段：模型微调和检索增强生成（RAG）的应用。在微调阶段，数据集用于对大语言模型进行领域特定的监督微调，以提升其在铁路领域的专业能力。微调后的模型能够更准确地回答与铁路驾驶相关的问题。在RAG阶段，数据集被进一步用于构建铁路驾驶知识库，通过语义相似度计算检索相关文档块，增强模型的回答准确性和可解释性。用户可以通过输入问题，直接获取基于微调模型生成的回答，或通过RAG技术获取结合外部知识的优化回答。

背景与挑战

背景概述

Railway Training Dataset (RTD) 是由北京交通大学的罗宇晨、寻静等研究人员于2025年提出的，旨在为高速铁路驾驶员提供智能辅助系统（IDAS-LLM）的领域特定微调数据集。该数据集的构建基于中国铁路机车和车辆驾驶员资格考试大纲，涵盖了法律条款、铁路规章和铁路专业知识三大类内容，共包含10,100条结构化的问答对。RTD的创建是为了解决高速铁路驾驶员在操作中面临的技术挑战，如故障处理等，通过领域特定的微调提升大语言模型（LLM）在铁路领域的知识准确性和解释能力。该数据集的应用不仅提升了驾驶员在故障处理中的决策能力，还为铁路运输系统的智能化发展提供了重要支持。

当前挑战

RTD数据集在构建和应用过程中面临多重挑战。首先，铁路领域的知识具有高度的专业性和复杂性，要求模型能够准确理解并生成符合行业标准的响应，这在大语言模型的通用预训练基础上难以直接实现。其次，数据集的构建依赖于大量领域特定的文本数据，而铁路领域的公开数据相对稀缺，且手动标注成本高昂。此外，尽管通过领域微调和检索增强生成（RAG）技术缓解了模型幻觉问题，但仍无法完全保证所有响应的准确性，尤其是在面对复杂的故障场景时，模型的解释能力和实时性仍需进一步提升。这些挑战要求未来的研究在数据集扩展、知识图谱集成以及实时性能优化等方面进行深入探索。

常用场景

经典使用场景

Railway Training Dataset (RTD) 主要用于高速列车驾驶员的培训与知识评估。通过构建包含铁路法律条款、技术操作规范及专业知识的结构化问答对，RTD 为驾驶员提供了全面的知识库，帮助其在模拟环境中应对各种紧急情况。该数据集还用于训练基于大语言模型的智能驾驶员辅助系统（IDAS-LLM），以提升驾驶员在故障处理中的准确性和响应速度。

解决学术问题

RTD 解决了高速列车驾驶员在故障处理中的知识不足问题。通过领域特定的微调和检索增强生成（RAG）技术，RTD 显著提升了大型语言模型在铁路领域的专业知识表现，减少了模型在生成响应时的幻觉现象。实验表明，微调后的模型在回答铁路相关问题时，准确率平均提升了10%，且RAG框架进一步提高了问答会话的召回率。

实际应用

RTD 在实际应用中，主要用于高速列车驾驶员的实时辅助系统。通过IDAS-LLM框架，驾驶员能够在遇到牵引力丢失或传感器故障等紧急情况时，获得及时且准确的故障处理建议。这不仅减少了驾驶员对机械师的依赖，还显著提升了列车运行的安全性和效率。此外，RTD 还可用于驾驶员的日常培训，帮助其掌握复杂的铁路操作规范。

数据集最近研究

Railway Training Dataset (RTD)

资源简介：

相关数据集