LoRA 训练完全指南

2026/06/01 23:21:25·2026/06/02 00:47:00

AI微调·3 min read

为什么这个系列值得从头看一遍

LoRA（Low-Rank Adaptation）已经从一篇参数高效微调论文，演变成今天大模型训练与适配里的事实标准方法之一。它不只是一个公式，也是一整套从理论、模块选择、代码实现到工具链分层的工程体系。

本页是整个系列的枢纽入口。你可以把它当作目录，也可以把它当作一页速查卡：先看全景，再决定自己该从哪一篇开始。

📚 系列目录

01 LoRA 原理深度调研：从低秩适应到关键变体的全面解析 ✓ 已完成
解释 LoRA 为什么成立：内在维度、低秩分解、缩放因子、初始化、梯度流动，以及 QLoRA / AdaLoRA / LoRA+ 这些关键变体。
02 LoRA 适用结构与代码实现：从 Linear 到 Conv 的全面适配 ✓ 已完成
解释 LoRA 应该插到哪些模块，什么时候 FFN 比 Attention 更关键，以及如何从零手写 LoRA 和用 PEFT 做工业级配置。
03 LoRA 生态与经典库：从 PEFT 到 LLaMA-Factory 的选型指南 ✓ 已完成
把 LoRA 工具链按层次拆开：PEFT、bitsandbytes、Unsloth、LLaMA-Factory、Axolotl、ms-SWIFT 与 Kohya-ss 分别解决什么问题。

核心速查

h = W_0 x + \frac{\alpha}{r}BAx

其中 $$W_0$$ 是冻结的预训练权重， $$A$$ 与 $$B$$ 是低秩可训练矩阵。这个公式背后隐含的假设是：下游任务真正需要学习的更新，往往远低于完整参数空间维度 #Hu et al., 2021 #Aghajanyan et al., 2021。

问题	一句话答案	去哪里看
LoRA 为什么有效？	因为有效更新常落在低维子空间里	系列一
秩 $$r$$ 怎么选？	从 4 或 8 起步，按任务复杂度逐步提高	系列一
哪些层最值得插 LoRA？	Attention 重要，但 FFN 往往同样关键	系列二
手写 LoRA 有什么意义？	帮助理解 merge、初始化与参数量缩减逻辑	系列二
大模型显存不够怎么办？	走 QLoRA 路线：PEFT + bitsandbytes	系列一 / 系列三
第一次实战用什么工具？	先用 LLaMA-Factory 或 PEFT，再考虑 Unsloth	系列三

建议阅读顺序

Hu, E. J. et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685
Aghajanyan, A. et al. (2021). Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning. ACL 2021. arXiv:2012.13255