跳转至

第五部 · 研究

目标:把 Hermes 作为研究基础设施——批量生成 agent 轨迹、用 Atropos 环境做 RL 训练、压缩轨迹作训练数据、评估新模型的 agent 能力。

这一部是给谁看的

做 agent RL / 工具调用模型训练 / agent 能力评估的研究者、PhD、工程师。

日常用户可以跳过

这部分包含什么

读完这部分,你应该能做到

  • batch_runner 并行跑 100 条任务,收集结构化轨迹
  • 理解轨迹压缩做了什么,能调参适配你的训练格式
  • 启动一个 Atropos 环境,用 Tinker 做 GRPO 训练
  • 设计自己的 agent 能力 benchmark,用 Hermes 评估多个模型

准备好了,从 32. 批量轨迹生成 → 开始。