LOONGBENCH

Name: LOONGBENCH
Creator: CAMEL-AI.org
Published: 2025-09-03 14:42:40
License: 暂无描述

arXiv2025-09-03 更新2025-09-05 收录

下载链接：

https://github.com/camel-ai/camel

下载链接

链接失效反馈

官方服务：

资源简介：

LOONGBENCH是一个高质量的基础数据集，包含8,729个例子，覆盖12个推理密集型领域，每个例子都配以可执行代码和语义验证的答案。这些种子数据确保了领域特定模式的覆盖，同时保持了正确性和多样性，为下游的合成数据生成和推理能力增强提供了可靠的基础。LOONGENV是一个灵活且可扩展的合成数据生成环境，它采用LOONGBENCH的种子例子，并使用各种策略生成新的问答对。LOONGBENCH和LOONGENV共同构成了一个能够在大规模上实现强化学习的代理-环境循环，其中基于LLM的代理因其生成的思维链解决方案与代码执行的答案一致而获得奖励。

LOONGBENCH is a high-quality foundational dataset consisting of 8,729 examples spanning 12 reasoning-intensive domains, with each example paired with executable code and semantically validated answers. This seed data ensures coverage of domain-specific patterns while maintaining correctness and diversity, providing a reliable foundation for downstream synthetic data generation and reasoning capability enhancement. LOONGENV is a flexible and scalable synthetic data generation environment that leverages the seed examples from LOONGBENCH and employs various strategies to generate new question-answer pairs. Together, LOONGBENCH and LOONGENV form a large-scale reinforcement learning agent-environment loop, where LLM-based agents are rewarded for generating chain-of-thought solutions that align with the answers derived from code execution.

提供机构：

CAMEL-AI.org

创建时间：

2025-09-03

原始信息汇总

CAMEL-AI 数据集概述

数据集基本信息

名称: CAMEL-AI
类型: 多智能体系统框架与合成数据集
开源社区: 致力于探索智能体缩放定律的开源社区

核心设计原则

可进化性: 支持多智能体系统通过生成数据和与环境交互持续进化
可扩展性: 设计支持百万级智能体系统，确保大规模协调和通信效率
状态保持: 智能体保持状态记忆，支持多步环境交互和复杂任务处理
代码即提示: 每行代码和注释都作为智能体的提示，确保人类和智能体都能有效解读

研究价值

大规模智能体系统: 可模拟多达100万个智能体，研究复杂多智能体环境中的涌现行为和缩放定律
动态通信: 实现智能体间实时交互，促进复杂任务的协作
状态记忆: 智能体具备历史上下文保持和利用能力，改进长期交互决策
多基准支持: 使用标准化基准严格评估智能体性能，确保可重现性和可靠比较
多智能体类型支持: 支持多种智能体角色、任务、模型和环境，支持跨学科实验
数据生成与工具集成: 自动化创建大规模结构化数据集，无缝集成多种工具

主要功能模块

1. 数据生成

思维链（CoT）数据生成
自指导（Self-Instruct）数据生成
源到合成（Source2Synth）数据生成
自改进数据生成

2. 任务自动化

角色扮演
劳动力系统
RAG管道

3. 世界模拟

Oasis案例研究

合成数据集资源

AI Society数据集

聊天格式: https://huggingface.co/datasets/camel-ai/ai_society/blob/main/ai_society_chat.tar.gz
指令格式: https://huggingface.co/datasets/camel-ai/ai_society/blob/main/ai_society_instructions.json
翻译聊天格式: https://huggingface.co/datasets/camel-ai/ai_society_translated

Code数据集

聊天格式: https://huggingface.co/datasets/camel-ai/code/blob/main/code_chat.tar.gz
指令格式: https://huggingface.co/datasets/camel-ai/code/blob/main/code_instructions.json

学科数据集

数学: https://huggingface.co/datasets/camel-ai/math
物理: https://huggingface.co/datasets/camel-ai/physics
化学: https://huggingface.co/datasets/camel-ai/chemistry
生物: https://huggingface.co/datasets/camel-ai/biology

技术栈模块

智能体: 自主操作的核心架构和行为
智能体社会: 多智能体系统构建和管理组件
数据生成: 合成数据创建和增强工具
模型: 智能体智能的模型架构和定制选项
工具: 专业智能体任务工具集成
内存: 智能体状态管理的存储和检索机制
存储: 智能体数据和状态的持久化存储方案
基准测试: 性能评估和测试框架
解释器: 代码和命令解释能力

研究项目

CRAB项目: https://crab.camel-ai.org/
智能体信任: https://agent-trust.camel-ai.org/
OASIS项目: https://oasis.camel-ai.org/
Emos项目: https://emos-project.github.io/

安装和使用

bash pip install camel-ai pip install camel-ai[web_tools] export OPENAI_API_KEY=your_openai_api_key

社区资源

文档: https://docs.camel-ai.org
论文: https://arxiv.org/abs/2303.17760
Discord社区: https://discord.camel-ai.org/
微信社区: https://ghli.org/camel/wechat.png

搜集汇总

数据集介绍

构建方式

LOONGBENCH数据集的构建采用了多领域人工精选与自动化验证相结合的方法，涵盖数学、物理、化学等12个推理密集型领域。首先从高质量源数据（如MATH、SciBench等）筛选问题，利用大语言模型生成对应的可执行代码，并通过领域专用验证器（如数学表达式匹配、单位转换和动态容差机制）确保答案的语义正确性。每个数据点包含自然语言问题、验证后的最终答案、可执行代码及丰富元数据，最终形成8,729个经过严格人工审核的样本。

特点

该数据集的核心特点在于其广泛的领域覆盖与严格的验证机制，包含12个推理密集型领域如高等数学、化学、逻辑学等，每个领域的问题均配备可执行代码和语义验证答案。数据集的多样性和难度经过精心校准，从近乎饱和的编程领域（100%准确率）到极具挑战性的数学编程领域（约10%准确率），形成了良好的判别性谱系。此外，所有样本均附带元数据（许可证、来源、难度等级等），支持下游任务的可追溯性和可扩展性。

使用方法

LOONGBENCH可作为种子数据集用于引导合成数据生成框架（如LOONGENV），通过少样本提示、自指令和进化指令等策略扩展训练分布。研究者可将其作为基准测试工具，评估大语言模型在多领域推理任务中的性能，特别关注链式思维（CoT）生成与代码执行能力的结合。数据集的验证机制支持强化学习与可验证奖励（RLVR）范式，通过代码执行结果与自然语言答案的语义比对，为模型训练提供自动化监督信号。

背景与挑战

背景概述

LOONGBENCH数据集由CAMEL-AI研究团队于2025年创建，旨在解决多领域复杂推理任务中高质量可验证数据的稀缺问题。该数据集涵盖数学、物理、化学、金融等12个推理密集型领域，包含8,729条经过人工校验的样本，每条样本均配备可执行代码与语义验证答案。其核心研究目标是通过程序化验证机制增强大语言模型的链式推理能力，为跨领域推理研究提供标准化评估基准，显著推动了可验证推理数据生成范式的发展。

当前挑战

该数据集主要应对多领域复杂推理任务的语义一致性验证挑战，包括数学表达式等价性判断、物理量纲统一性检验及化学方程式逻辑匹配等核心问题。构建过程中需克服三大技术难点：一是跨领域代码执行环境的异构性整合，需协调SymPy、NetworkX等不同领域库的依赖兼容性；二是人工校验高复杂度推理链的可靠性保障，通过多轮专家交叉验证降低错误率；三是动态容差机制的设计，需针对数值计算与符号推理设计差异化验证策略以避免误判。

常用场景

经典使用场景

在复杂推理任务中，LOONGBENCH数据集被广泛用于评估大语言模型的多领域推理能力，特别是在需要代码执行验证的场景下。该数据集通过提供包含可执行代码和验证答案的样本，支持模型在数学、物理、化学等12个领域进行链式思维推理，为研究社区提供了一个标准化的测试平台。

解决学术问题

LOONGBENCH解决了跨领域推理数据稀缺的学术难题，通过提供高质量、可验证的种子数据集，支持强化学习与可验证奖励机制的研究。该数据集使模型能够在缺乏人工标注的领域学习推理模式，推动了自动推理验证方法的发展，并为多领域泛化能力的研究提供了基础。

衍生相关工作

LOONGBENCH衍生了一系列经典工作，包括基于其环境的LOONGENV合成数据生成框架，以及采用Evol-Instruct和Self-Instruct策略的扩展研究。这些工作进一步推动了强化学习与可验证奖励的结合，并在多领域推理优化中发挥了重要作用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集