当前大部分Agent架构设计的局限性

SHI XIAOLONG

10 Mar 2026 — 4 min read

这个问题其实已经触及到 Agent系统设计的核心分歧。很多人感觉“Agent不好用”，但说不清原因。本质上是：大多数Agent架构是从“对话系统”演化出来的，而不是从“执行系统”设计出来的。

我分几个层次讲，会比较清晰。

一、为什么 99% 的 Agent 架构其实是错的

现在主流 Agent 框架，比如：

LangChain
AutoGPT
CrewAI

基本都继承了一种架构：

User
 ↓
Prompt
 ↓
LLM
 ↓
Tool
 ↓
LLM
 ↓
Tool
 ↓
Answer

看起来像这样：

Think → Act → Observe

这就是经典 ReAct 模式。

但问题是：ReAct只是一个推理模式，不是系统架构。

很多框架误以为：

Agent = ReAct loop

于是就出现了几个致命问题。

二、错误一：LLM 既当大脑又当调度器

大部分 Agent 系统是这样的：

LLM
 ├ 任务规划
 ├ 工具选择
 ├ 状态管理
 ├ 结果评估
 └ 决策

全部让 LLM 做。

这就相当于：

CPU
操作系统
调度器
程序

全部塞进一个函数里。

这是非常糟糕的架构。

原因是：

LLM 不是状态机。

它是：

stateless probability generator

也就是：

概率文本生成器。

它并不擅长：

长期状态管理
精确流程控制
复杂调度

于是 Agent 就会：

忘记任务
重复操作
死循环
跑偏

三、错误二：没有真正的“任务树”

绝大多数 Agent 的任务结构其实是：

task
  ↓
LLM分解
  ↓
执行

问题是：

没有显式任务结构。

真正复杂任务需要：

任务树

比如：

Build Web App
   ├ Design architecture
   ├ Setup project
   │    ├ init repo
   │    ├ install deps
   │    └ configure build
   ├ Implement API
   └ Deploy

但多数Agent没有这个结构。

它们是：

一步 → 下一步 → 下一步

线性的。

一旦某一步失败：

整个系统就迷路了。

四、错误三：没有独立的“评估器”

绝大多数 Agent 是这样：

LLM执行
LLM评估

例如：

Write code
→ Run test
→ LLM判断是否成功

这其实非常不可靠。

因为：

LLM会 自我欺骗。

它经常会说：

Yes the task is completed.

即使完全没完成。

真正可靠的系统需要：

Executor
Evaluator

分离。

例如：

code execution
test result
diff
linter

由系统判断，而不是 LLM。

五、错误四：没有“世界模型”

绝大多数 Agent 不知道世界状态。

例如：

文件系统。

很多 Agent 是这样：

LLM猜测文件内容

而不是：

读取文件
建立索引
维护状态

这导致：

修改错误文件
覆盖代码
破坏项目

六、真正正确的 Agent 架构应该是什么

更合理的结构其实更像 操作系统。

一个成熟 Agent 应该长这样：

                User
                  │
             Task Manager
                  │
              Planner
                  │
           ┌──────┴──────┐
           │             │
        Executor      Memory
           │
       Tool System
           │
        Evaluator
           │
          Loop

核心原则是：

LLM只负责智能推理。

而不是负责：

调度
状态
执行控制

七、Claude Code 可能的真实架构

虽然 Claude Code 没公开细节，但从行为上推测，大概结构类似这样：

User Request
     │
Task Interpreter
     │
High Level Planner
     │
Task Graph
     │
Execution Loop
     │
Tool Runner
     │
Environment State
     │
Evaluation

关键点有几个。

1 明确的任务循环

它不是一次性生成答案，而是：

Plan
Execute
Observe
Update Plan

持续循环。

2 强工具系统

Claude Code 的工具不是普通 API。

而是 操作系统级工具：

bash
git
file edit
search
diff

这让它真正能：

操作真实项目

而不是只生成代码。

3 持久环境状态

它非常清楚：

当前 repo 状态
文件结构
git diff
命令输出

Agent 不会靠猜。

4 强约束策略

Anthropic 的 prompt engineering 极其强。

系统 prompt 很可能包含：

coding guidelines
error recovery
tool usage policy
step planning

这会大幅减少：

Agent失控

八、为什么 Anthropic 做 Agent 特别强

原因其实很简单：

Anthropic 从一开始就把 Claude 设计成：

tool-using model

而不是纯聊天模型。

他们很早就在研究：

LLM + tools
LLM + environment
LLM + constitution

所以 Claude 在：

长任务
工具调用
多步执行

这些地方非常稳。

九、未来 Agent 的真正形态

未来成熟 Agent 可能更像这样：

AI OS

里面有：

Planner
Executor
Memory
Evaluator
Tool Bus
World Model

LLM只是：

智能模块

而不是整个系统。

跑步的技巧（滚动落地）

“滚动落地（rolling contact / rolling foot strike）”不是一种教条式的“脚法”，而是一种让冲击沿着整只脚、整条后链逐级传递的落地机制。它的核心不是“你先用哪儿着地”，而是：你的脚落地之后，冲击是不是像轮子一样滚过去，而不是像锤子一样砸下去。这就是滚动落地的本质。一、什么叫“滚动落地”？你可以把它理解成两种完全不同的落地方式： 1. 砸地（撞击式）脚像锤子一样拍到地上： * 要么后跟先砸 * 要么前掌先戳 * 冲击集中在一个点 * 一个结构瞬间吃掉大部分载荷结果就是： * 后跟砸 → 膝盖难受 * 前掌戳 → 前脚掌磨烂 * 都不是长跑友好模式这叫撞击式着地（impact strike）。 2. 滚地（滚动式）脚像轮胎一样“滚”过地面： * 不是某一点硬砸 * 而是外侧中足先轻触 * 再向前滚到前掌 * 最后从大脚趾蹬离

AMI的优越性

世界模型（World Models）的具体例子如下，我按类型分类，便于理解。每类都附带实际实现、演示效果和应用场景。 1. Yann LeCun / Meta 的 JEPA 系列（最直接对应“世界模型”概念）这些是 LeCun 主张的非生成式抽象预测世界模型代表。 * I-JEPA（Image JEPA，2023）输入一张图像，模型把不同区域（context 和 target）编码成抽象表示，然后预测 target 的表示（不在像素级别重建）。例子：给定一张遮挡了部分物体的图片，模型能预测“被遮挡物体的大致位置和属性”，构建对物体持久性和空间关系的理解。这是一个“原始世界模型”，能学习物理常识（如物体不会凭空消失）。 * V-JEPA / V-JEPA 2（Video JEPA，

什么是：“世界模型（World Models）”

世界模型（World Models）是人工智能领域的一个核心概念，尤其在 Yann LeCun 等研究者推动的下一代 AI 架构中占据中心位置。它指的是 AI 系统在内部构建的对现实世界的抽象模拟或内部表示，让机器能够像人类或动物一样“理解”物理世界、预测未来、规划行动。简单比喻想象你闭上眼睛也能“看到”房间里的物体会如何移动、碰撞或掉落——这就是你大脑里的世界模型。AI 的世界模型就是类似的“数字孪生”（digital twin）或“内部模拟器”：它不是简单记住数据，而是学习世界的动态、因果关系和物理直觉（如重力、物体持久性、遮挡、因果等）。为什么需要世界模型？当前主流的大型语言模型（LLM）擅长处理文本（统计模式预测），但存在根本局限： * 缺乏对物理世界的真正理解 → 容易“幻觉”、无法可靠规划。 * 样本效率低 → 人类/

K线周期可配置化设计方案

K线周期可配置化设计方案 1. 背景与目标当前 Beta 套利策略的 K 线周期硬编码为 "1h"，分散在多个文件中。需要： 1. 将 K 线周期从 1h 改为 2h 2. 提取为环境变量 BETA_ARB_KLINE_INTERVAL，使其可在 .env 中配置 2. 影响范围分析 2.1 需要修改的文件（共 6 个）文件硬编码位置修改内容 src/trading/config.py BetaArbConfig dataclass 新增 kline_interval 字段，