ESC
输入关键词搜索文章
目录

嵌入式智能系统与新型计算架构

西安交通大学 · 任鹏举教授
从硅片到系统,从串行到并行,从通用到专用——逐讲拆解计算机体系结构的核心脉络
Introduction · 课程说明
课程概览

本课程由西安交通大学人工智能与机器人研究所任鹏举教授主讲,面向计算机体系结构方向的高年级本科生与研究生。课程核心目标是建立"从应用到物理"的系统观:理解算法需求如何驱动架构设计,制造技术如何约束架构选择,以及软硬件协同如何在多层抽象之间架起桥梁。

参考教材为 Computer Systems: A Programmer's Perspective(CS:APP,深入理解计算机系统)第三版。先修课程:数字系统结构、计算机组成原理。

📚 讲次索引
第 01 讲

半导体产业演进、系统分层模型(从应用到物理)、软件与硬件的抽象层次。理解为什么现代计算既是数据处理能力,也是增强能力。

核心问题:一辆新能源车为什么需要超过 1000 颗芯片?系统设计的本质是什么?

  • 系统分层与抽象
  • 半导体产业趋势
  • 软硬件协同设计
第 02 讲

"免费午餐时代"的终结:为什么单核性能提升停滞?功耗墙、指令级并行、数据级并行、线程级并行的概念与权衡。

核心问题:2004 年之后,让程序变快的答案从"等下一代 CPU"变成了什么?

  • 功耗墙与 Dennard 缩放
  • ILP / DLP / TLP 概览
  • 并行加速比与 Amdahl 定律
第 03 讲 · 上

指令级并行的挖掘:流水线、超标量、乱序执行、分支预测、编译器优化。理解现代 CPU 如何在单线程内榨取并行性。

核心问题:一段串行代码,CPU 如何"偷偷"并行执行其中的独立指令?

  • 流水线与超标量
  • 乱序执行与分支预测
  • 编译器优化技术
第 03 讲 · 中

数据级并行(SIMD/向量处理)与线程级并行(多核/多线程)。从 SSE/AVX 到超线程,理解不同并行粒度的实现与权衡。

核心问题:向量化指令能让同一段代码快多少倍?多线程编程有哪些陷阱?

  • SIMD / AVX / NEON
  • 多核与缓存一致性
  • 超线程与 SMT
第 03 讲 · 下

GPU 的 SIMT 执行模型、CUDA 编程模型、线程网格与内存层级。为什么 GPU 在 AI 训练中碾压 CPU?

核心问题:GPU 有几千个"核心",为什么写 CUDA 代码比写 C 代码复杂得多?

  • SIMT vs SIMD
  • CUDA 线程模型
  • GPU 内存层级与优化
第 04 讲

从寄存器到 DRAM 到 SSD/HDD 的完整存储层级、局部性原理、缓存映射策略。理解"存储墙"和如何写出缓存友好的代码。

核心问题:为什么遍历二维数组时,行优先比列优先快 10 倍?

  • 存储层级与局部性
  • 缓存映射与替换策略
  • 缓存友好编程
第 05 讲

数据流驱动的专用架构:脉动阵列的基本原理、矩阵乘法映射、 weight-stationary / output-stationary 数据流。Google TPU 的核心设计思想。

核心问题:为什么 TPU 用脉动阵列做矩阵乘法,而不是直接用 GPU?

  • 脉动阵列原理
  • 数据流模式
  • TPU 案例分析
第 06 讲

FPGA 的 LUT/CLB/互连架构、配置比特流、时序约束;CGRA 的粗粒度可重构与数据流执行。可重构计算在 AI 加速器中的应用。

核心问题:FPGA "编程"和写 C 代码有什么区别?为什么 AI 推理加速器爱用 FPGA?

  • FPGA 架构基础
  • LUT / CLB / 互连
  • CGRA 与数据流
📖 参考资源
资源类型说明
Computer Systems: A Programmer's Perspective 3rd Ed.教材CS:APP,深入理解计算机系统,本课程参考教材
Hennessy & Patterson Computer Architecture教材计算机体系结构经典教材,量化方法
算力系统全景综述本博客的算力系统架构全面指南,可作为课程预习/复习材料
课程课件 L01–L06PPT/PDF西安交通大学任鹏举教授课程讲义,见各讲笔记引用
🗺️ 学习路径建议
路径一:按讲次顺序

适合系统学习。从 L01 系统基础开始,经 L02 并行计算动机,深入 L03 现代处理器三种并行,再到 L04 存储层级,最后 L05–L06 专用架构。每讲笔记独立成篇,但前后有衔接提示。

路径二:问题导向

适合复习或查漏补缺。先读 算力系统全景 建立全局认知,再按需深入特定讲次。例如:做 GPU 编程 → L03c;优化缓存性能 → L04;设计 AI 加速器 → L05+L06。

🔗 相关文章