Skip to content

GenAI & LLM 原理完全指南

核心原理第一性原理难度: ⭐⭐☆☆☆

"AI 实际上并不具备意识或思考能力,它本质上是一个高级的概率预测机,专注于补全下一个最可能的词。"

本指南旨在从第一性原理出发,系统梳理 Generative AI (GenAI) 与 Large Language Models (LLMs) 的底层运作逻辑。理解这些原理不仅是满足好奇心,更是掌握 Prompt Engineering 和 Agent 开发的基石。


一、🗺️ AI 的演进图谱

人工智能的发展并非一蹴而就,而是一个层层递进的演化过程。

1.1 技术演进层级

1.2 核心阶段对比

阶段核心定义关键特征典型应用
Machine Learning (ML)让计算机从数据中学习模式,而非手动编程规则。手动提取特征,依赖统计学方法。包含监督、无监督、强化学习。垃圾邮件拦截、房价预测、推荐系统
Deep Learning (DL)使用多层神经网络(Neural Networks)模拟人脑,处理复杂非结构化数据。自动提取特征,通过层级结构(Layers)理解边缘->形状->物体。图像识别、语音识别、自动驾驶
LLM (Large Language Model)专注于理解和生成人类语言模式的深度学习模型。海量参数,基于 Transformer 架构,具备涌现能力。GPT-4, Claude 3.5 Sonnet, Gemini

关键洞察:从规则到模式

传统编程依赖人类显式定义每一条规则(If-Then);ML/DL/LLM 的范式转移在于:机器通过观察海量数据,自己总结出了比人类能定义的更复杂的模式(Patterns)。


二、⚙️ LLM 核心机制:Next Token Prediction

大语言模型看起来无所不知,但其核心任务极其单一:预测下一个词

2.1 概率预测机 (Probability Machine)

LLM 并不像人类一样“思考”问题,它是在进行复杂的模式补全 (Pattern Completion)

  • 输入: "The cat sat on the..."
  • 处理: 模型分析语境,计算词库中所有词出现的概率。
  • 输出:
    • "mat" (70%)
    • "floor" (20%)
    • "box" (5%)
    • ... -> 选择概率最高的 "mat"

2.2 Token (词元)

AI 处理的最小单位不是单词,而是 Token

  • 定义: 字、词或词的一部分。
  • 换算: 1000 Tokens ≈ 750 英文单词。
  • 意义: 这种切分方式让模型能处理复杂的构词法和多语言内容。

三、🧠 Transformer 与 Attention 机制

2017 年 Google 发布的论文 Attention Is All You Need 彻底改变了 AI 领域,奠定了现代 LLM 的基础。

3.1 核心架构:Transformer

相比于旧的 RNN/LSTM 模型(只能顺序阅读),Transformer 的革命性在于并行处理 (Parallel Processing)。它能同时处理整个句子,大大提升了训练效率和上下文理解能力。

3.2 Attention Mechanism (注意力机制)

这是 LLM 能够“理解”语言的关键。Attention 机制允许模型在生成一个 Token 时,动态地关注上下文中相关的其他 Token。

举例说明

句子: "The animal didn't cross the street because it was too tired."

当模型处理单词 "it" 时,Attention 机制会分配极高的权重给 "animal",而不是 "street"。这使得 AI 能够消解指代歧义,理解深层语义。

3.3 GPT 的含义

OpenAI 的 GPT 系列模型完美诠释了这一技术栈:

  • G (Generative): 生成式,用于创造新内容。
  • P (Pre-trained): 预训练,在海量互联网文本上通过无监督学习掌握语言规律。
  • T (Transformer): 基于 Transformer 架构。

四、⏳ Context Window 与 短期记忆

4.1 什么是 Context Window?

Context Window (上下文窗口) 是模型在一次交互中能够同时“看见”并处理的 Token 总量上限。它包含了:

  1. System Prompt: 你的预设指令。
  2. Conversation History: 之前的对话记录。
  3. Current Query: 用户最新的问题。
  4. Response: 模型正在生成的回答。

4.2 记忆的局限性

LLM 没有真正的长期记忆(除非使用 RAG 或外部存储)。所有的“记忆”都必须存在于 Context Window 中。

遗忘的真相

当对话超长时,最初的 System Prompt 或早期的设定可能会被截断。这也是为什么在长对话中,AI 可能会突然“忘记”你是谁,或者不再遵守最初的格式要求。


五、💡 深度洞察与常见误区

5.1 祛魅:AI 的能力边界

误区 (Myth)真相 (Truth)
"AI 像人一样有意识"AI 是概率统计模型,它没有主观意识,只是模拟了人类的语言表达。
"AI 不会犯错"既然是基于概率预测,就必然存在幻觉 (Hallucination)。它可能一本正经地胡说八道。
"AI 记性无限好"受限于 Context Window,它有明显的短期记忆瓶颈。

5.2 为什么 Prompt Engineering 如此重要?

既然 LLM 是基于概率的预测机,Prompt Engineering 的本质就是通过调整输入(Input Context),来改变模型预测下一个 Token 的概率分布

  • 清晰的指令 -> 缩小概率空间,指向正确答案。
  • Few-Shot 示例 -> 提供模式参考,让模型模仿预测。
  • Context 补充 -> 提供必要信息,减少模型瞎猜(幻觉)的概率。

六、📚 延伸阅读与资源


← 返回 AI 知识库