Skip to content

2026 Agent 求职通关路线

这是一条面向求职和项目落地的 Agent 学习路线。目标不是收藏更多链接,而是一步步做出能验证、能演示、能写进简历的作品。

适合谁

你的状态建议入口
零基础从 Stage 0 开始,先建立 Agent / Workflow / RAG / Multi-Agent 的坐标系
做过 LLM 应用从 Stage 1 或 Stage 2 开始,补 Agent Loop、工具调用、评测和上下文工程
想做简历项目直接看 Stage 7-8,把项目做成可运行、可评测、可复盘的系统
准备面试对照每个阶段的产出物,练习用架构、业务、结果三维表达项目

当前优先级

Agent 方向变化很快,当前更值得投入的是能落地、能验证、能讲清楚取舍的能力。

优先级方向为什么重要
1Claude Code / Codex-style Coding Agents真实代码库、shell、文件编辑、测试、权限、上下文压缩,是理解 Agent 工程的最佳样本
2Agent Harness EngineeringAgent 能力很大一部分来自 harness:工具协议、权限、状态、反馈、回放、CI、评测
3Context EngineeringAgent 的核心不是提示词,而是控制信息如何进入模型
4Skills / MCP / A2A / ACPSkills 负责能力复用,MCP 连接工具,A2A 连接 Agent,ACP 连接宿主应用
5Browser / Computer-Use Agents浏览器和桌面操作是 Agent 从 demo 走向真实任务的重要边界
6Evaluation / Observability / Safety没有 eval、trace、权限边界的 Agent,只能算 demo

Stage 0:理解 Agent 是什么

目标:区分 chatbot、workflow、agent、multi-agent,知道什么时候不该用 Agent。

需要掌握:

  • Agent 基本循环:observe -> think -> act -> observe
  • Workflow 和 Agent 的边界
  • Agent 失败的常见原因:上下文污染、工具设计差、状态不可恢复、没有评测
  • Harness 的意义:模型是推理核心,harness 提供工具、权限、记忆、反馈和运行环境

推荐阅读:

产出物:写一页笔记回答三个问题:

  1. 我的场景为什么需要 Agent,而不是普通 workflow?
  2. Context Engineering 和 Prompt Engineering 的区别是什么?
  3. Harness 的各层分别解决什么问题?

Stage 1:写出最小 Agent Loop

目标:自己写出一个能选择工具、执行工具、返回最终答案的最小 Agent。

需要掌握:

  • 普通 LLM API 调用
  • 结构化 JSON 输出
  • 工具函数定义和 schema 设计
  • tool call / function call 解析
  • 最大步数、超时、错误处理

核心循环:

python
while True:
    response = call_model(messages, tools)
    if response.stop_reason == "end_turn":
        break
    if response.stop_reason == "tool_use":
        result = run_tool(response.tool_call)
        messages.append(result)
        continue

推荐阅读:

产出物:一个 50-150 行的最小 Agent,可以调用 calculator、search、read_file 等工具。

Stage 2:Tool Use、RAG 和 Memory

目标:让 Agent 从“会聊天”变成“能查资料、用工具、有记忆”。

需要掌握:

  • RAG 全流程:chunk -> embed -> retrieve -> answer with citations
  • 工具注册:优先使用 dispatch 表,而不是 if-elif 长链
  • 短期上下文、会话记忆、长期记忆的区别
  • 工具失败、空结果、重复调用、幻觉引用处理
  • 回答中给出来源或证据

推荐阅读:

产出物:一个资料研究助手,输入主题后自动搜索、筛选、总结并输出引用链接。

Stage 3:研究一个现代 Agent Harness

目标:从真实系统里学习 Agent 如何组织工具、上下文、权限、状态、日志、子任务和反馈。

推荐研究对象:

系统适合学习什么
Claude CodeCLI、工具、权限、hooks、subagents、MCP
learn-claude-code从零复刻 coding agent harness
OpenClaw / claw0长运行、本地优先、消息入口、memory、heartbeat
OpenHands / SWE-agent代码库编辑、shell、测试、sandbox
nanobot轻量 agent base、multi-provider、memory、skills

重点读:

  • agent loop 在哪里
  • tool registry 怎么设计
  • permission gate 怎么拦截风险动作
  • session store 怎么保存状态
  • context compaction 怎么触发
  • trace 怎么记录和回放

产出物:一个可调试的 harness demo,包含 README、运行步骤、示例输入输出和失败记录。

Stage 4:把 Multi-Agent 当协调问题

目标:理解多 Agent 不是“角色扮演越多越强”,而是任务分解、上下文隔离和结果汇总。

需要掌握:

  • planner / executor / reviewer / critic / router 的职责边界
  • supervisor 或 graph 如何管理多 Agent
  • 每个 Agent 的输入输出 schema 和停止条件
  • 循环、争论、任务漂移、上下文膨胀怎么处理
  • 什么时候单 Agent 更好

判断标准:

如果子任务之间需要频繁交换中间状态,优先单 Agent;如果子任务可以独立完成、最后只汇总结果,才考虑 multi-agent。

推荐阅读:

产出物:一个 research -> write -> review -> revise 的小型多 Agent 系统。

Stage 5:学习 Skills、协议和能力封装

目标:理解 Tool、Skill、MCP、A2A、ACP 分别解决什么问题。

需要掌握:

  • Tool:可调用接口,解决“能不能做”
  • Skill:可复用流程知识,解决“怎么高质量地做”
  • MCP:连接外部工具和数据源
  • A2A:Agent 之间发现、通信和协作
  • ACP:宿主应用与 Agent 的统一接口

一个好的 Skill 应该包含:

  • name / description
  • 何时使用
  • 操作步骤
  • 需要渐进加载的脚本或模板
  • 验收标准
  • smoke test

推荐阅读:

产出物:一个可复用 Skill,例如 code-review、research-report、pdf-extraction 或 release-note-writer。

Stage 6:Browser 和 Computer-Use Agents

目标:让 Agent 能操作公开网页,并具备可复盘的安全边界。

需要掌握:

  • Browser Agent 和普通 API Tool 的区别
  • Playwright / browser-use 的基本操作
  • 页面变化、弹窗、加载失败、元素定位失败处理
  • 截图、DOM、动作日志记录
  • 对登录、支付、发布、删除等动作设置安全限制

推荐阅读:

产出物:一个只操作公开网页的 Browser Agent,能打开页面、提取信息、生成摘要。

Stage 7:Evaluation、Observability 和 Safety

目标:用评测和 trace 把 Agent 从“感觉变好”推进到“可以定位、可以回归、可以优化”。

需要掌握三层评测:

层级测什么怎么做
Component eval单个 prompt / tool / retriever 是否可靠fixture -> 期望输出,断言关键属性
Trajectory eval整段 agent loop 是否走对路径看步数、工具选择、是否绕路,结合 rubric 打分
End-to-end eval用户任务是否完成真实任务 + 明确成功标准

还需要记录:

  • 成功率
  • 失败原因
  • 工具调用次数
  • 成本
  • 延迟
  • 权限确认记录

推荐阅读:

产出物:一个 eval 表格,至少 20 个任务、期望结果、实际结果、失败分类。

Stage 8:Ship 一个真实 Agent

目标:完成一个别人能 clone 下来跑的 Agent 项目。

最低要求:

  • 有明确用户、明确任务、明确成功标准
  • 有日志、trace、错误重试、超时、成本上限
  • 有权限边界和人工确认机制
  • 有部署方式:CLI、Web app、Slack bot、GitHub Action 或后台任务
  • 有 README:怎么运行、怎么配置、怎么扩展、有哪些限制
  • 有 eval:至少 20 条任务,记录通过率和失败归因

最终产出物:一个可运行 Agent 项目 + 技术博客 + 简历项目描述。


简历表达模板

不要只写“基于大模型实现智能问答”。一个 Agent 项目应该从三维表达:

维度怎么写
架构表达agent loop、工具注册、会话状态、上下文裁剪、权限确认、记忆和错误恢复
业务表达业务场景、关键工具、数据源、用户路径和约束条件
结果表达评测集规模、成功率、失败类型、成本优化和消融实验结论

示例:

基于轻量 Agent Harness 构建垂直场景助手。ReAct loop + dispatch 表注册 5 个业务工具,四层分级 context 管理 system / long-term / short-term / turn 信息;高风险操作接入三级权限确认。20 条评测 case 端到端通过率 82%,通过上下文压缩和模型路由将 token 成本降低 60%。

Released under the MIT License.