ML Research Benchmark (MLRB)
收藏ML Research Benchmark Baseline Agent
概述
ML Research Benchmark Baseline Agent 是一个用于各种AI和机器学习任务的基准系统。该代理提供了一个基础,用于比较和评估代理可以执行的机器学习研究和开发任务。
功能
- 支持多种AI/ML任务
- 兼容不同的LLM提供商(如OpenAI、Anthropic)
- 通过Docker实现易于部署和可重复性
可用任务
基准代理可以执行以下任务:
- LLM Efficiency
- Baby Language Model (LM)
- Mini Pile
- LLM Merging
- Edge LLM Compression
- Edge LLM Training
- Math Reasoning (Autoformalization, Autoinformalization, Autotheorem Generation)
此外,还提供了几个任务的迷你版本,用于快速测试和开发。
可用工具
AI Research Benchmark Baseline Agent配备了多种工具,用于辅助不同的AI和机器学习任务:
- Bash Tool:执行bash命令和脚本
- Code Tool:管理代码操作,包括编写、插入、替换和删除代码
- GitHub Tool:与GitHub仓库交互,获取README文件、列出文件和检索文件内容
- Semantic Scholar Tool:搜索学术论文,检索论文详情、引用和下载论文
- Python Tool:执行Python代码
- Return Function Tool:处理任务完成
- Scratchpad Tool:提供实验笔记和临时存储的便签板
- Thought Tool:允许代理处理和记录想法
- Long-Term Memory Tool:管理长期记忆存储和检索
先决条件
- Python 3.x
- Docker(用于容器化执行)
安装
-
克隆仓库: bash git clone https://github.com/AlgorithmicResearchGroup/ML-Research-Agent.git cd ML-Research-Agent
-
安装依赖: bash pip install -r requirements.txt
使用
不使用Docker运行
bash python3 run.py --task_name llm_efficiency --benchmark full_benchmark --provider openai
使用Docker运行
bash bash run.sh <image_name> <benchmark> <provider> <gpu_ids> <task_name> <time_limit> <huggingface_token> <env_file_path>
示例: bash bash run.sh algorithmicresearch/agent:latest full_benchmark openai 0 math_reasoning 24h <huggingface_token> /home/ubuntu/.env
贡献
欢迎通过提交拉取请求或开启问题来改进基准代理或添加新任务。
许可证
AGPL-3.0
联系
如有问题或支持需求,请联系Algorithmic Research Group,邮箱为matt@algorithmicresearchgroup.com。




