Agentic AI 课程精要
Andrew Ng 8 小时课程浓缩至 30 分钟精华总结
💡 核心洞察
将 LLM 包装在智能体工作流中,比直接调用效果显著更好、更快、更模块化
模块 1: Agentic AI 基础
1️⃣ 什么是 Agentic AI?
Agentic AI 工作流是基于 LLM 的应用通过执行多个步骤来完成任务的过程
较低自主性
步骤预定义且清晰明确
✓ 更强控制力
较高自主性
给定工具和目标,自主决策
✓ 更多创造性
2️⃣ 三大核心组件
1. Models
AI 模型本身,如 LLM 或多模态模型
2. Tools
赋予智能体的功能:搜索、数据库查询、代码执行
3. Evaluations ⭐
"构建 AI 智能体的另一半"
模块 2 & 3: 智能体设计模式(较低自主性)
模式 1: Reflection(反思)
让 AI 生成初稿后,指示它"回顾并改进"。这种简单的两步流程(草稿 + 反思)比单步请求效果好得多
模式 2: Tool Use(工具使用)
赋予智能体工具访问权限。关键是必须定义工具并在系统提示中告知智能体工具的存在和用途
示例:个人助理智能体
任务:"在周四找一个空闲时段"
实现方式:代码函数 或 Anthropic's MCP 协议
模块 4: 实践技巧与评估(Evals)⭐ 最重要
Evals 是衡量智能体性能和系统性改进的客观方法
评估框架:2x2 矩阵
客观 + 有真实值
答案是二元的(对/错)+ 每个输入有唯一正确答案
示例:发票提取智能体
问题:混淆"到期日期"和"发票日期"
EVAL: extracted_date == ground_truth_date
→ 结果:相等 或 不相等
主观 + 有标准
答案质量非二元 + 有黄金标准
示例:研究智能体写论文
主题:"黑洞科学"
LLM as a Judge
- 手动创建关键主题清单
- 例如:Event Horizon, 射电望远镜
- 用另一个 LLM"评判"论文
- 计算覆盖主题数量给分
客观 + 无个别真实值
统一标准适用所有输出
示例:营销文案智能体
规则:文案始终少于 10 个单词
EVAL: len(text) <= 10
主观 + 无标准
评估方式灵活多样
根据具体场景设计评估策略
模块 5: 高度自主智能体模式(实验性)
这些模式可控性较低,但可能产生"真正优秀"甚至"神奇"的结果
模式 1: Planning(规划)
智能体自己规划解决复杂查询的计划,然后执行该计划
客户问题:
"你们有库存的圆形太阳镜,价格低于 $100 吗?"
Planning LLM 生成的计划:
-
1
使用
get_item_description查找圆形太阳镜 -
2
使用
check_inventory检查库存 -
3
使用
get_item_price筛选 < $100 的商品
模式 2: Multi-Agent Systems(多智能体系统)
多个不同智能体协同工作产生最终结果,类似人类专家团队
核心直觉:
一个人(单智能体)尝试做所有事情会不堪重负。团队(多智能体)中每个成员专精不同领域,产生更好结果
示例:营销团队智能体
Researcher
研究趋势
Designer
创建视觉
Writer
编写报告
讲师的课程评价
过于理论化:缺乏部署和实际获取用户的实践细节
代码导向:所有作业都是基于代码的,容易让人误以为必须会编程
✓ 实际上这些系统可以用无代码工具构建
关键要点总结
🎯 核心理念
智能体工作流 > 直接 LLM 调用
📐 自主性光谱
从预定义步骤到完全自主决策
🛠️ 三大支柱
Models + Tools + Evaluations
⭐ 最重要模块
Evaluations(评估)