嵌入式智能系统与新型计算架构

2026/05/25 12:00:00

Introduction · 课程说明

课程概览

本课程由西安交通大学人工智能与机器人研究所任鹏举教授主讲，面向计算机体系结构方向的高年级本科生与研究生。课程核心目标是建立"从应用到物理"的系统观：理解算法需求如何驱动架构设计，制造技术如何约束架构选择，以及软硬件协同如何在多层抽象之间架起桥梁。

参考教材为 Computer Systems: A Programmer's Perspective（CS:APP，深入理解计算机系统）第三版。先修课程：数字系统结构、计算机组成原理。

📚 讲次索引

第 01 讲

计算机系统基础

半导体产业演进、系统分层模型（从应用到物理）、软件与硬件的抽象层次。理解为什么现代计算既是数据处理能力，也是增强能力。

核心问题：一辆新能源车为什么需要超过 1000 颗芯片？系统设计的本质是什么？

系统分层与抽象
半导体产业趋势
软硬件协同设计

第 02 讲

并行计算核心主题

"免费午餐时代"的终结：为什么单核性能提升停滞？功耗墙、指令级并行、数据级并行、线程级并行的概念与权衡。

核心问题：2004 年之后，让程序变快的答案从"等下一代 CPU"变成了什么？

功耗墙与 Dennard 缩放
ILP / DLP / TLP 概览
并行加速比与 Amdahl 定律

第 03 讲 · 上

现代处理器：ILP 与优化

指令级并行的挖掘：流水线、超标量、乱序执行、分支预测、编译器优化。理解现代 CPU 如何在单线程内榨取并行性。

核心问题：一段串行代码，CPU 如何"偷偷"并行执行其中的独立指令？

流水线与超标量
乱序执行与分支预测
编译器优化技术

第 03 讲 · 中

现代处理器：DLP 与 TLP

数据级并行（SIMD/向量处理）与线程级并行（多核/多线程）。从 SSE/AVX 到超线程，理解不同并行粒度的实现与权衡。

核心问题：向量化指令能让同一段代码快多少倍？多线程编程有哪些陷阱？

SIMD / AVX / NEON
多核与缓存一致性
超线程与 SMT

第 03 讲 · 下

GPGPU 架构与大规模并行编程

GPU 的 SIMT 执行模型、CUDA 编程模型、线程网格与内存层级。为什么 GPU 在 AI 训练中碾压 CPU？

核心问题：GPU 有几千个"核心"，为什么写 CUDA 代码比写 C 代码复杂得多？

SIMT vs SIMD
CUDA 线程模型
GPU 内存层级与优化

第 04 讲

存储层级与编程

从寄存器到 DRAM 到 SSD/HDD 的完整存储层级、局部性原理、缓存映射策略。理解"存储墙"和如何写出缓存友好的代码。

核心问题：为什么遍历二维数组时，行优先比列优先快 10 倍？

存储层级与局部性
缓存映射与替换策略
缓存友好编程

第 05 讲

脉动阵列架构

数据流驱动的专用架构：脉动阵列的基本原理、矩阵乘法映射、 weight-stationary / output-stationary 数据流。Google TPU 的核心设计思想。

核心问题：为什么 TPU 用脉动阵列做矩阵乘法，而不是直接用 GPU？

脉动阵列原理
数据流模式
TPU 案例分析

第 06 讲

FPGA 与 CGRA 可重构架构

FPGA 的 LUT/CLB/互连架构、配置比特流、时序约束；CGRA 的粗粒度可重构与数据流执行。可重构计算在 AI 加速器中的应用。

核心问题：FPGA "编程"和写 C 代码有什么区别？为什么 AI 推理加速器爱用 FPGA？

FPGA 架构基础
LUT / CLB / 互连
CGRA 与数据流

📖 参考资源

资源	类型	说明
Computer Systems: A Programmer's Perspective 3rd Ed.	教材	CS:APP，深入理解计算机系统，本课程参考教材
Hennessy & Patterson Computer Architecture	教材	计算机体系结构经典教材，量化方法
算力系统全景	综述	本博客的算力系统架构全面指南，可作为课程预习/复习材料
课程课件 L01–L06	PPT/PDF	西安交通大学任鹏举教授课程讲义，见各讲笔记引用

🗺️ 学习路径建议

路径一：按讲次顺序

适合系统学习。从 L01 系统基础开始，经 L02 并行计算动机，深入 L03 现代处理器三种并行，再到 L04 存储层级，最后 L05–L06 专用架构。每讲笔记独立成篇，但前后有衔接提示。

路径二：问题导向

适合复习或查漏补缺。先读算力系统全景建立全局认知，再按需深入特定讲次。例如：做 GPU 编程 → L03c；优化缓存性能 → L04；设计 AI 加速器 → L05+L06。

🔗 相关文章

算力系统全景：从芯片到存储的完整指南 — 课程内容的综合综述