跳转至

Hermes Agent 中文指南

第五部 · 研究

BeamusWayne/hermes-agent-guide

第五部 · 研究¶

目标:把 Hermes 作为研究基础设施——批量生成 agent 轨迹、用 Atropos 环境做 RL 训练、压缩轨迹作训练数据、评估新模型的 agent 能力。

这一部是给谁看的

做 agent RL / 工具调用模型训练 / agent 能力评估的研究者、PhD、工程师。

日常用户可以跳过。

这部分包含什么¶

:material-batch: 32. 批量轨迹生成

batch_runner.py 并行跑任务,生成结构化轨迹数据。
33. 轨迹压缩

trajectory_compressor.py —— 把原始 agent 轨迹压成 SFT 训练样本。
34. Atropos RL 环境

environments/ + tinker-atropos,RL 训练 agent 模型。
35. Agent 能力评估

用 Hermes 评估新 LLM 的 agent 能力,mini-swe-bench 集成。

读完这部分,你应该能做到¶

用 batch_runner 并行跑 100 条任务,收集结构化轨迹
理解轨迹压缩做了什么,能调参适配你的训练格式
启动一个 Atropos 环境,用 Tinker 做 GRPO 训练
设计自己的 agent 能力 benchmark,用 Hermes 评估多个模型

准备好了,从 32. 批量轨迹生成 → 开始。