动手学大模型
《动手学大模型》由上海交通大学《自然语言处理前沿技术》(NIS8021)与《人工智能安全技术》(NIS3353)课程讲义拓展而来,主讲教师张倬胜。教程属公益性质、完全免费,旨在通过简单实践帮助快速入门大模型,开展课程设计或学术研究。
教程涵盖从模型微调到安全对齐的全栈技能,分为核心实践、安全对齐、多模态与 Agent 三大模块。所有代码均可在本机运行,每章配有完整的 Jupyter Notebook 实验环境。
核心实践路线
- Ch1 · 微调与部署 — HuggingFace Transformers 微调 + Gradio Spaces 部署,以虚假新闻检测为场景
- Ch2 · 提示学习与思维链 — API 调用、零样本/少样本、CoT、PoT、自洽性,显著提升推理准确率
- Ch3 · 知识编辑 — EasyEdit 框架:ROME / MEMIT 精准修改模型特定知识,不干扰其他能力
- Ch4 · 数学推理 — SFT + DeepSeek-R1 数据蒸馏,训练 Qwen2.5-Math-1.5B 学会数学推理
安全与对齐
- Ch5 · 模型水印 — KGW 统计水印嵌入与检测,追踪 AI 生成内容来源,AUC 接近 100%
- Ch6 · 越狱攻击 — EasyJailbreak 框架:11 种越狱方法,Selector→Mutator→Constraint→Evaluator 迭代
- Ch7 · 大模型隐写 — 霍夫曼编码 + GPT-2 token 采样,在正常文本中隐藏秘密信息
- Ch11 · RLHF 安全对齐 — PPO 三步循环:Rollout → Evaluation → Optimization,KL 正则化约束
多模态与 Agent
- Ch8 · 多模态大模型 — MLLM 类型与架构,NExT-GPT"任意到任意"模态系统,三阶段训练
- Ch9 · GUI 智能体 — Qwen2-VL-7B + OS-Kairos 数据集,构建"看懂截图 + 预测点击"的 Agent
- Ch10 · 智能体安全 — R-Judge 评测框架,7 大领域 27 场景,评估 Agent 风险识别与安全判断能力
Ch1 · 微调与部署
虚假新闻检测实践。解耦版本(模块清晰)与集成版本(直接运行)两条路径。Gradio Spaces 在线部署。
Ch2 · 提示学习
零样本/少样本提示范式,CoT 思维链推理,PoT 程序思维,自洽性采样,ReAct 推理+行动循环。
Ch3 · 知识编辑
EasyEdit 统一框架,ROME 单条编辑,MEMIT 批量编辑。评估四性:可靠性、通用性、局部性、可移植性。
Ch4 · 数学推理
DeepSeek-R1 数据蒸馏流程。DeepMath-103K + Qwen2.5-Math-1.5B,从数据预处理到模型评测全流程。
Ch5 · 模型水印
KGW 统计水印算法,z-score 检测。AUC 接近 100%。鲁棒性挑战:paraphrase 和 translation 会降低检测能力。
Ch6 · 越狱攻击
EasyJailbreak 框架,11 种越狱方法。知己知彼,理解攻击是做好防御的前提。
Ch7 · 大模型隐写
霍夫曼编码 + GPT-2,在正常文本中隐藏秘密信息。解码后信息可完整提取,表面完全不可感知。
Ch8 · 多模态大模型
MLLM 两大架构,NExT-GPT "任意到任意"模态系统,ImageBind + Vicuna + 扩散模型解码器,三阶段训练。
Ch9 · GUI 智能体
Qwen2-VL-7B + OS-Kairos,"看懂截图 + 预测操作"的 Agent。全量 SFT,3×80GB A100 硬件要求。
Ch10 · 智能体安全
R-Judge 评测框架,7 大领域 27 场景。评测 Agent 在开放场景中的风险识别与安全判断能力。
Ch11 · RLHF 对齐
PPO 三步循环(Rollout→Evaluation→Optimization),BERT 情感分类器替代人工反馈,KL 正则化约束。
- 模型微调:HuggingFace Transformers,PEFT/LoRA,SFT,DeepSpeed
- 提示工程:CoT,PoT,ReAct,Auto-CoT,少样本学习
- 知识编辑:EasyEdit,ROME,MEMIT,Knowledge Neurons
- 安全对齐:RLHF,PPO,Reward Model,KL 散度
- 多模态:ImageBind,NExT-GPT,LLaVA,Qwen2-VL
- Agent:ReAct,R-Judge,OS-Kairos,EasyJailbreak
- 部署:Gradio,HuggingFace Spaces,vLLM
- 工具库:trl,EasyEdit,EasyJailbreak,X-SIR
主要来自上海交通大学 NLP 小组(张倬胜、袁童鑫、马欣贝、何志威、杜巍、赵皓东、吴宗儒、吴铮、董凌众、张玉龙等),昇腾社区(ZOMI、谢乾、程黎明、楼梨华、焦泽昱)参与《大模型开发全流程》系列。