TransportBench
收藏arXiv2024-08-16 更新2024-08-17 收录
下载链接:
https://agi4engineering.github.io/TransportBench/
下载链接
链接失效反馈官方服务:
资源简介:
TransportBench数据集由伊利诺伊大学厄巴纳-香槟分校创建,旨在评估大型语言模型在解决本科水平交通工程问题中的能力。该数据集包含140个问题,涵盖交通经济学、驾驶员特征、车辆运动等多个主题。数据集的创建过程涉及从大学课程中选取问题,并将其转换为LaTeX格式以供评估。TransportBench主要用于测试和提升大型语言模型在交通系统工程领域的应用,特别是在提高问题解决的准确性和一致性方面。
The TransportBench dataset was created by the University of Illinois Urbana-Champaign, with the goal of evaluating the capabilities of large language models (LLMs) in solving undergraduate-level transportation engineering problems. This dataset contains 140 questions covering multiple topics including transportation economics, driver characteristics, vehicle motion, and others. The development process of the dataset involved selecting problems from university courses and converting them into LaTeX format for evaluation. TransportBench is primarily used to test and improve the application of large language models in the field of transportation systems engineering, particularly in enhancing the accuracy and consistency of problem-solving.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2024-08-16
搜集汇总
数据集介绍

构建方式
TransportBench数据集的构建方式是通过收集并整理了140个本科级别的交通运输工程问题,这些问题的范围涵盖了交通运输系统的规划、设计、管理和控制等多个方面。这些问题由人类专家根据其在伊利诺伊大学开设的交通运输工程课程中的教学经验精心挑选和设计,确保了问题的质量和难度。数据集包括判断题和问答题两种类型,并提供了详细的LaTeX格式解决方案和JSON格式文件,便于评估和比较。
特点
TransportBench数据集的特点在于其问题涵盖了交通运输工程的多个关键领域,如交通运输经济学、驾驶员和车辆特性、道路几何设计、交通流量和控制、交通规划等。这些问题不仅测试了大型语言模型对基本事实的掌握,还考察了其在分析和解决实际问题方面的能力。此外,数据集还提供了详细的解决方案,为评估模型的表现提供了标准。
使用方法
使用TransportBench数据集的方法主要涉及对大型语言模型进行评估和比较。首先,将模型应用于数据集中的问题,收集其输出结果。然后,由人类专家对这些结果进行标注,评估模型的准确性和一致性。最后,通过比较不同模型的性能,可以了解它们在解决交通运输工程问题方面的优势和局限性。
背景与挑战
背景概述
随着人工智能的兴起,大型语言模型(LLMs)在各个领域的应用逐渐显现,特别是在解决复杂问题时,如交通系统工程。TransportBench数据集应运而生,旨在评估LLMs在解决交通系统工程问题方面的能力。该数据集由伊利诺伊大学香槟分校的电气与计算机工程系、土木与环境工程系,以及加州大学圣地亚哥分校的计算机科学与工程系的研究人员共同创建,旨在通过一系列本科水平的交通工程问题,评估LLMs的准确性、一致性和推理能力。TransportBench数据集的创建,标志着人工智能在解决交通领域复杂问题方面迈出的重要一步,为人工智能在交通系统工程中的应用提供了宝贵的基准。
当前挑战
尽管TransportBench数据集展现了LLMs在解决交通系统工程问题方面的潜力,但仍面临一些挑战。首先,LLMs在解决复杂问题时,推理能力有待提高,特别是在需要深入理解物理过程和细微概念的问题上。其次,LLMs的一致性也是一个问题,有时即使给出正确的答案,其推理过程也可能出现错误。此外,LLMs在处理不同类型的问题时,表现也会有所不同,如True or False问题通常比General Q&A问题更容易解决。为了克服这些挑战,未来的研究应着重于提高LLMs的推理能力,探索更有效的提示方法,以及开发具有强大工具使用能力的LLM代理,以解决更复杂的交通系统工程问题。
常用场景
经典使用场景
TransportBench 数据集主要用于评估大型语言模型 (LLMs) 在解决本科水平的交通运输系统工程问题上的能力。通过提供一系列涉及规划、设计、管理和控制交通运输系统的实际问题,该数据集允许人类专家对各种商业和开源 LLMs 进行评估,特别是它们在解决交通运输工程问题方面的准确性、一致性和推理行为。TransportBench 的经典使用场景包括使用 GPT-4、GPT-4o、Claude 3.5 Sonnet 等模型解决交通运输经济学、驾驶员和车辆特性、道路几何设计、交通流和控制、交通运输规划等领域的本科水平问题。
解决学术问题
TransportBench 数据集解决了在交通运输系统工程领域评估 LLMs 能力的问题。该数据集提供了评估 LLMs 准确性、一致性和推理行为的标准,有助于理解 LLMs 在解决实际问题方面的优势和局限性。TransportBench 的意义在于为 LLMs 在交通运输系统工程中的应用提供了基准,并为未来的研究和开发提供了基础。该数据集的影响在于推动了 LLMs 在交通运输系统工程领域的应用,并为相关研究提供了重要的参考。
衍生相关工作
TransportBench 数据集衍生了关于 LLMs 在交通运输系统工程中应用的经典工作。该数据集为 LLMs 在解决交通运输系统工程问题方面的研究提供了重要的参考和基础。TransportBench 衍生的相关经典工作包括使用 LLMs 进行交通管理、交通预测、车辆检测、道路状况监测、交通标志识别、自动驾驶等。这些研究进一步推动了 LLMs 在交通运输系统工程中的应用,并为未来的研究提供了重要的参考和启示。
以上内容由遇见数据集搜集并总结生成



