大语言模型检索与记忆增强技术总结报告
1. 检索增强生成(RAG)的架构演进
RAG 技术已经从简单线性流程演进为更复杂的认知架构,主要包括:
Vanilla RAG(基础版)
- 标准“检索-增强-生成”流程。
- 将外部文档分块向量化,基于语义相似度召回相关片段。
- 将召回片段作为上下文(Context)输入模型。
Agentic RAG(代理式)
- 引入多轮思考循环。
- 模型可主动拆解任务并发起多次定向检索。
- 支持自反思与纠错(Self-RAG)。
GraphRAG(图谱增强)
- 结合知识图谱与向量搜索。
- 利用实体间结构化关系解决全局性、总结性问题。
- 弥补传统 RAG 在跨段落关联理解上的不足。
Repo-level RAG(仓库级)
- 面向代码等高度结构化数据。
- 借助语法树分析与调用栈拓扑实现跨文件精准检索。
2. 推理过程中的计算开销与 KV Cache
RAG 检索内容进入模型后会参与 Transformer 注意力计算,影响如下:
Prefill 阶段压力
- 检索内容增加输入序列长度(Sequence Length)。
- 计算复杂度近似为
。
KV Cache 消耗
- 为了加速 Decoding,需要在 HBM 中存储全部输入 token 的 Key/Value 矩阵。
- token 增加会线性提升 KV Cache 占用。
Context Caching 技术
- 可持久化预计算 KV Cache。
- 相同前缀(Prefix)再次输入时可直接挂载缓存,跳过 Prefill。
3. 长上下文(Long Context)与 RAG 的共存逻辑
长上下文模型出现后,RAG 的必要性并未消失,两者边界如下:
长上下文的局限
- 虽可处理百万级 token,但全量扫描成本高。
- 极长序列仍有“中间信息丢失(Lost in the middle)”风险。
RAG 的优势
- 支持实时更新外部知识。
- 以“按需调页”方式仅引入最相关片段,能有效控制时延与成本。
当前趋势
- 二者正在合流:长上下文承担大段语义建模,RAG 负责海量数据初筛。
4. 内部条件记忆(Engram / Conditional Memory)
以 DeepSeek 等前沿架构为代表,条件记忆强调计算与存储解耦:
核心机制
- 在 Transformer 隐藏层计算中,通过多头哈希(Multi-head Hashing)触发外部存储(DRAM/SSD)Embedding 索引查询。
注入方式
- 检索结果以特征向量注入残差连接(Residual Connection)。
- 不增加输入 token 数量。
技术本质
- 在不增加注意力负担(不额外消耗 KV Cache)前提下,扩展模型知识容量的稀疏化技术。
5. 核心结论与定性分析
| 技术维度 | 检索增强生成(RAG) | 内部条件记忆(Engram) |
|---|---|---|
| 定位 | 外部咨询 / 领域专家 | 固化用户 / 特定记忆 |
| 生效阶段 | 推理前(Pre-inference) | 计算中(Intra-inference) |
| 数据形式 | 输入侧外部文本 / 数据 | 特征层注入的内部模式匹配 |
| 最佳用途 | 在核心推理前提供领域背景知识 | 在计算中固化用户记忆并提升特征提取精度 |
总结:RAG 的本质是在输入端通过“外部干预”缓解模型知识滞后;Engram 类技术则是在推理层通过“内部映射”扩展模型记忆容量。