Linux 内核中的代码自修改（Code Patching）机制总结

Linux 内核为了在关键路径上追求极致性能，广泛使用了“代码自修改”技术。这种技术的核心思想是：将运行时的条件判断开销转移到配置变更的瞬间，通过动态修改内存中的机器码，实现零运行时开销（Zero Runtime Overhead）。

以下是两种典型的应用场景：static_key 机制与 SMP LOCK 指令替换。

1. static_key 机制（Jump Label）

主要用于解决内核中大量的配置选项（CONFIG_*）或运行时状态开关带来的 if (condition) 分支判断开销。

出处引用
作者：MyStackTrace
来源：知乎回答
“static_key 不是直接使用判断条件，而是利用一条无条件跳转指令 (jmp 或 nop) 来‘绕过’或‘跳入’原本需要条件判断的代码块... 避免了分支预测失败对 CPU pipeline 造成的性能影响。”

编译期（预留空间）：编译器不生成 cmp/je 等条件跳转指令，而是根据功能的默认状态，生成 nop（空指令）或 jmp（无条件跳转），并将这些指令的地址记录在特殊的段（如 __jump_table）中。
运行时（热补丁）：当管理员通过 sysfs 等方式切换功能开关时，内核查表找到对应的指令地址，将 nop 替换为 jmp（或反之）。
优势：在功能关闭（或开启）的常态下，CPU 执行的是线性的指令流，完全消除了分支预测失败的风险和条件判断的指令开销。

在单核（UP, Uni-Processor）系统或单 vCPU 的虚拟机中，用于多核同步的 LOCK 指令前缀是多余且有害的（可能锁总线或触发 VM-Exit）。内核会在启动时检测 CPU 拓扑，如果发现是单核，会将所有 LOCK 前缀替换为 NOP。

出处引用
作者：MoMo
来源：知乎回答
“代码里做了一个很骚的操作来把所有 LOCK 前缀的位置保存下来... 这是一个非常经典的‘编译期埋点 + 链接期收集 + 运行时替换’的技术方案。”

代码通过精妙的汇编宏实现“明修栈道，暗度陈仓”：

编译期（埋点）：
- 正常代码段 (.text)：放置正常的 lock 指令，保证多核下的正确性。
- 特殊段 (.smp_locks)：利用 .pushsection/.popsection 临时切换段，记录下那条 lock 指令相对于当前位置的偏移量（offset）。
c
```
#define LOCK_PREFIX_HERE \
    ".pushsection .smp_locks,\"a\"\n" \
    ".balign 4\n" \
    ".long 671f - .\n" /* 计算相对偏移量 */ \
    ".popsection\n" \
    "671:" /* 局部标签 */
```
链接期（收集）：链接器将所有目标文件中的 .smp_locks 段合并成一个巨大的数组（“藏宝图”）。
启动时（替换）：内核初始化时检查 CPU 数量。若是单核，则遍历 .smp_locks 数组，根据偏移量计算出内存地址，将该地址处的 lock 指令（0xF0）覆写为 nop（0x90）。

无论是 static_key 还是 LOCK 前缀替换，其本质都是 Optimize for the common case（为最常见的情况做优化）：