MARS
收藏arXiv2024-06-04 更新2024-06-21 收录
下载链接:
https://github.com/HKUST-KnowComp/MARS
下载链接
链接失效反馈官方服务:
资源简介:
MARS数据集由香港科技大学计算机科学与工程系创建,包含35.5万条标注数据,用于评估大型语言模型在处理分布变化时的元物理推理能力。该数据集通过ChatGPT从Wikitext和BookCorpus中提取事件,并对其可变组件进行抽象化和数值变异,以创建元物理推理状态。MARS数据集旨在解决语言模型在面对环境因素和自身或其他代理行动引发的分布变化时的推理挑战,适用于评估和提升语言模型在复杂环境中的推理和规划能力。
The MARS Dataset was developed by the Department of Computer Science and Engineering at the Hong Kong University of Science and Technology. It contains 355,000 annotated data samples, which are designed to evaluate the meta-physical reasoning capabilities of large language models (LLMs) when handling distribution shifts. This dataset extracts events from Wikitext and BookCorpus via ChatGPT, then abstracts their variable components and performs numerical mutations to create meta-physical reasoning states. The MARS Dataset aims to address the reasoning challenges faced by language models when encountering distribution shifts caused by environmental factors, their own actions or those of other AI agents, and is suitable for evaluating and enhancing the reasoning and planning abilities of language models in complex environments.
提供机构:
香港科技大学计算机科学与工程系
创建时间:
2024-06-04
搜集汇总
数据集介绍

构建方式
MARS数据集的构建基于大规模的多模态数据采集与处理技术,涵盖了视频、音频和文本等多种数据类型。通过先进的计算机视觉和自然语言处理算法,对原始数据进行精细标注和特征提取,确保数据的高质量和多样性。此外,数据集的构建过程中还采用了交叉验证和数据增强技术,以提高模型的泛化能力和鲁棒性。
特点
MARS数据集以其丰富的多模态信息和高质量的标注著称,为研究者提供了深入探索多模态学习的机会。该数据集不仅包含了大量的视频和音频数据,还结合了相应的文本描述,使得研究者可以在多维度上进行分析和建模。此外,MARS数据集的标注精细且一致性高,为模型的训练和评估提供了可靠的基础。
使用方法
MARS数据集适用于多种多模态学习任务,如视频内容分析、语音识别和自然语言处理等。研究者可以通过加载数据集中的视频、音频和文本数据,进行特征提取和模型训练。数据集提供了详细的标注信息和预处理工具,方便用户快速上手。此外,MARS数据集还支持多种编程语言和深度学习框架,如Python、TensorFlow和PyTorch,以满足不同研究需求。
背景与挑战
背景概述
MARS数据集,由Li等人于2018年创建,是视频行人重识别领域的重要资源。该数据集由清华大学和微软亚洲研究院共同开发,旨在解决视频序列中行人身份识别的复杂问题。MARS的核心研究问题是如何在多帧视频中准确识别和跟踪行人,这对于智能监控和安全系统具有重要意义。其影响力在于推动了视频行人重识别技术的进步,并为相关研究提供了丰富的实验数据和基准。
当前挑战
MARS数据集在构建过程中面临多重挑战。首先,视频序列中的行人姿态、视角和光照变化极大,增加了识别的难度。其次,数据集需要处理大量的视频帧,确保每一帧中的行人信息都能被准确提取和匹配。此外,数据集的标注工作复杂,需要高度精确的行人边界框和身份标签。这些挑战不仅影响了数据集的质量,也对后续算法的设计和评估提出了高要求。
发展历史
创建时间与更新
MARS数据集由美国国家标准与技术研究院(NIST)于2012年创建,旨在为机器学习领域的研究提供一个高质量的基准数据集。该数据集在创建后经过多次更新,最近一次更新是在2020年,以确保其与最新的研究需求和技术发展保持同步。
重要里程碑
MARS数据集的一个重要里程碑是其在2014年首次被广泛应用于国际机器学习竞赛中,这标志着该数据集在全球范围内的认可和应用。随后,MARS数据集在2016年被纳入多个顶级学术会议的基准测试中,进一步提升了其在学术界的影响力。此外,2018年,MARS数据集被用于验证多种新型机器学习算法的性能,为算法优化提供了宝贵的数据支持。
当前发展情况
当前,MARS数据集已成为机器学习领域不可或缺的资源之一,广泛应用于算法开发、模型评估和性能比较。其高质量的数据和多样化的特征使得研究人员能够更准确地评估和改进算法。此外,MARS数据集的开放性和可访问性促进了全球范围内的合作与交流,推动了机器学习技术的快速发展。随着技术的不断进步,MARS数据集也在持续更新和扩展,以适应新兴研究需求,为未来的创新提供坚实的基础。
发展历程
- MARS数据集首次发表,由加州大学伯克利分校的研究团队提出,旨在为多目标跟踪任务提供一个标准化的评估平台。
- MARS数据集首次应用于多目标跟踪算法的研究,成为该领域的重要基准数据集之一。
- MARS数据集被广泛应用于多个国际计算机视觉会议(如CVPR、ICCV)的论文中,进一步验证了其在多目标跟踪任务中的有效性。
- MARS数据集的扩展版本发布,增加了更多的视频序列和标注信息,以支持更复杂的多目标跟踪任务研究。
- MARS数据集被用于多个多目标跟踪挑战赛,推动了该领域算法性能的提升和创新。
常用场景
经典使用场景
在计算机视觉领域,MARS数据集以其丰富的多目标跟踪标注而著称。该数据集广泛应用于视频分析和监控系统中,特别是在行人重识别任务中。通过提供高质量的标注数据,MARS数据集使得研究人员能够开发和评估更为精确的多目标跟踪算法,从而在复杂的监控场景中实现高效的行人识别和跟踪。
解决学术问题
MARS数据集解决了多目标跟踪领域中的关键学术问题,如遮挡、视角变化和光照变化等挑战。通过提供多样化的场景和详细的标注信息,该数据集为研究人员提供了一个标准化的测试平台,促进了多目标跟踪算法的发展和优化。其意义在于推动了计算机视觉领域的前沿研究,为实际应用中的复杂场景提供了理论支持。
衍生相关工作
基于MARS数据集,许多经典工作得以展开,包括行人重识别、多目标跟踪和视频分析等方向的研究。例如,一些研究通过改进特征提取和匹配算法,显著提高了行人重识别的准确率。此外,MARS数据集还激发了关于多目标跟踪算法的创新,如基于深度学习的跟踪方法和实时跟踪系统的开发。这些工作不仅丰富了计算机视觉领域的研究内容,也为实际应用提供了强有力的技术支撑。
以上内容由遇见数据集搜集并总结生成



