SymBench Datasets

github2025-02-10 更新2025-02-10 收录

下载链接：

https://github.com/yongchao98/CodeSteer-v1.0

下载链接

链接失效反馈

官方服务：

资源简介：

SymBench数据集，用于指导大型语言模型在代码执行和文本推理之间的整合。

The SymBench dataset is designed to guide large language models (LLMs) in integrating code execution and textual reasoning.

创建时间：

2025-02-04

原始信息汇总

CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance

数据集概述

数据集名称：CodeSteer
数据集用途：用于指导大型语言模型在代码执行和文本推理之间的符号增强语言模型的研究。
相关论文：
- CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance
- Steering Large Language Models between Code Execution and Textual Reasoning (ICLR2025)
数据集包含：代码、模型和用于以下论文的合成数据集。
性能比较：GPT-4o + CodeSteer 在 SymBench 上超越了 o1、R1 和 o1-preview。
环境设置：基于 Llama-factory，使用 Python 3.10。
训练与测试：提供了使用 GPU 和不使用 GPU 运行推理的脚本，以及使用合成数据微调 CodeSteerLLM 的方法。
数据集获取：
引用信息： md @misc{chen2025codesteersymbolicaugmentedlanguagemodels, title={CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance}, author={Yongchao Chen and Yilun Hao and Yueying Liu and Yang Zhang and Chuchu Fan}, year={2025}, eprint={2502.04350}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.04350}, } @article{chen2024steering, title={Steering Large Language Models between Code Execution and Textual Reasoning}, author={Chen, Yongchao and Jhamtani, Harsh and Sharma, Srinagesh and Fan, Chuchu and Wang, Chi}, journal={arXiv preprint arXiv:2410.03524}, year={2024} }

搜集汇总

数据集介绍

构建方式

SymBench Datasets数据集的构建是基于符号计算与自然语言处理相结合的理念，旨在为大型语言模型提供代码/文本引导。该数据集通过合成的方式生成，涵盖了多种任务的测试样本，这些样本在复杂性上可调，以适应不同的研究需求。数据集的构建采用了Llama-factory框架，并利用DeepSpeed进行微调过程，确保了数据集的高质量和多样性。

特点

该数据集的特点在于其创新的符号增强语言模型框架，通过结合代码和文本的引导，使得大型语言模型能够在符号计算和文本推理之间灵活切换。SymBench Datasets不仅包含了丰富的任务样本，而且提供了详细的性能比较和成本效益分析，展示了其在各种任务中的优越性。此外，数据集的构建过程考虑了模型的泛化能力，确保了在不同场景下的适用性。

使用方法

使用SymBench Datasets数据集，用户需要首先设置环境，安装必要的依赖，并配置API密钥。之后，可以通过运行基准测试脚本来测试未微调的模型，或者使用GPU运行脚本来测试微调后的CodeSteerLLM。用户还可以根据需要下载模型权重，调整配置文件，进行微调以进一步提升模型性能。详细的操作指南和脚本使得数据集的使用过程直观且易于操作。

背景与挑战

背景概述

SymBench Datasets是由Yongchao Chen及其团队开发的一系列数据集，旨在辅助符号增强语言模型CodeSteer的研究。该数据集的创建时间为近期，与CodeSteer模型一同发展，为研究符号计算与大型语言模型结合提供了实验基础。SymBench Datasets在促进代码生成和文本推理的整合方面具有显著的研究价值，其研究成果已发表在多个学术会议和期刊上，对自然语言处理领域产生了积极影响。

当前挑战

SymBench Datasets在构建过程中面临的挑战主要包括：确保数据集的多样性和复杂性，以适应不同的任务需求；合成数据时保持合理的复杂度平衡，以便于模型训练和评估；以及在大规模数据集上执行符号计算的高成本和计算资源消耗。在解决领域问题方面，SymBench Datasets挑战了传统文本推理的局限性，推动了符号计算与LLM的结合，以解决更复杂的编程和推理任务。

常用场景

经典使用场景

在符号计算与自然语言处理的交叉领域，SymBench Datasets被广泛用于训练和评估符号增强语言模型。该数据集的经典使用场景在于，通过代码/文本指导，辅助大型语言模型在代码执行与文本推理之间进行有效切换，进而提高模型在解决符号计算任务时的准确性和效率。

解决学术问题

SymBench Datasets解决了传统语言模型在处理符号计算任务时常见的推理错误问题。通过整合符号计算，模型能够在执行代码和文本推理之间进行灵活切换，有效提升了解决数学、逻辑等符号计算问题的能力，对于增强语言模型的推理能力和扩展其应用范围具有重要意义。

衍生相关工作

基于SymBench Datasets，研究者们已经衍生出了一系列相关工作，包括但不限于CodeSteer模型，该模型通过结合代码和文本指导，显著提升了大型语言模型在符号计算任务上的性能。这些研究不仅推动了符号增强语言模型的进展，也为理解语言模型如何更好地结合符号推理和代码执行提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集