课程导论与类脑计算
这是「计算认知科学与工程」课程的第一讲。本讲不深入任何一个认知子领域,而是搭建整门课的认知框架:认知科学是什么、它用什么方法研究心智、计算建模为什么不可或缺、脑机接口如何连接大脑与机器、以及类脑计算试图解决什么问题。
学完本讲,你应该能够回答:认知科学的六大组成学科各自贡献什么?Marr 的三层分析为什么是认知建模的基石?弱AI 和强AI 的根本分歧在哪?脑机接口的三种类型分别解决什么问题?脉冲神经网络与传统 ANN 的关键区别是什么?
前置知识回顾
本讲是导论,不要求前置认知科学知识。但以下概念会在后续章节反复出现,先建立一个印象:
- 神经元与突触:大脑的基本计算单元和信息传递结构。本讲在神经网络和脉冲神经网络部分使用。
- 信息论基础:互信息、信道容量等概念。本讲在视觉通路信息瓶颈部分使用。
- 线性代数:向量、矩阵运算。本讲在神经网络权重表示中使用。
认知科学(Cognitive Science)研究心智及其过程,涵盖感知、记忆、注意、推理、语言和情感等心理能力。这门学科的核心假设是:思维最好被理解为心智中的表征结构以及对这些结构进行操作的计算程序。这一定义同时强调了认知的双重本质——既是表征性的(representational),也是计算性的(computational)。
认知科学的定义
认知科学是研究心智和智能的跨学科领域,在心理学(实验方法与行为数据)、哲学(概念框架与本体论)、计算机科学(计算模型与工具)、语言学(语言结构与加工)、人类学(文化背景与跨文化比较)和神经科学(大脑结构与功能证据)六个学科的交叉处运作。
六个学科不是简单并列。心理学提供实验范式,神经科学提供生物约束,计算机科学提供建模工具,哲学追问概念基础,语言学和人类学则提供特定认知能力的分析框架。一个完整的认知理论需要在多个学科层面同时自洽。
Marr 的三层分析:为什么单一层级不够
认知科学的一个核心信条是:仅在一个层级上研究,无法完整理解心智或大脑。David Marr 在其 1982 年的著作《Vision》中提出了著名的三层分析框架,成为认知建模的基石。
Marr 三层分析
| 层级 | 核心问题 | 例子:记住电话号码 |
|---|---|---|
| 计算理论(Computational) | 系统的目标是什么?需要什么信息?为什么? | 为什么要记住号码?信息如何编码? |
| 算法/表征(Algorithmic) | 信息如何表征?用什么算法处理? | 是语音回路还是视觉编码?复述策略是什么? |
| 实现(Implementation) | 在物理/神经层面如何实现? | 哪些脑区参与?哪些神经回路? |
#Marr, 1982 提出三层分析后,这个框架被广泛应用于认知科学、神经科学乃至近期的大语言模型研究——有学者认为 LLM 也可以用 Marr 的三层来分析:训练目标对应计算层,Transformer 架构对应算法层,权重矩阵对应实现层#Levels of Analysis for LLMs, 2025。
认知科学的研究方法
认知科学综合使用四类方法,各自从不同角度逼近认知现象:
| 方法 | 测量对象 | 优势 | 局限 |
|---|---|---|---|
| 行为实验 | 反应时、正确率 | 直接测量认知输出 | 无法揭示内部过程 |
| 脑成像(fMRI / EEG / MEG) | 脑活动空间/时间分布 | 揭示神经相关物 | 相关非因果 |
| 计算建模 | 模拟行为与神经数据 | 可形式化理论、生成预测 | 模型可能不唯一 |
| 神经生物学方法 | 单细胞记录、损伤研究 | 因果证据、高精度 | 侵入性、样本受限 |
人工智能领域存在一个根本性的哲学争论:计算机到底能不能「思考」?这个争论把 AI 分成了两个阵营。
弱AI vs 强AI
弱AI(Weak AI):将 AI 作为工具来理解人类认知。AI 模型可以模拟认知过程的某些方面,但本身不具有心智或理解力。
强AI(Strong AI):声称适当编程的计算机具有真正能够「理解」的心智,甚至可能拥有自我意识和主观体验。
这个区分不是技术实现的差异,而是哲学立场的分歧。#Searle, 1980 的「中文房间」思想实验是反驳强AI 的经典论证:一个不懂中文的人在一个房间里按照规则书操作中文字符,对外表看来像懂中文,但他实际上没有任何理解——类似地,计算机执行程序也不构成真正的理解。
中文房间论证的要点
Searle 的核心论证不是「AI 无用」,而是语法处理不等于语义理解。计算机按规则操作符号(语法),但这本身不产生对符号意义的理解(语义)。强AI 的支持者则认为,理解可能是一种系统涌现属性,不必局限于某个组件。
这场争论至今没有定论,但它迫使 AI 研究者和认知科学家澄清自己到底在追求什么。
图灵测试:智能的行为主义判据
1950 年,阿兰·图灵提出了一个回避「思维是什么」这个棘手问题的方案:不问机器能否思考,只问机器的行为是否与人类无法区分。
图灵测试(The Imitation Game)
人类审讯者通过纯文字对话与两个对象交流(一个人类、一台计算机,身份隐藏)。如果审讯者无法可靠地分辨哪个是计算机,则该计算机通过图灵测试。
graph LR
J["🧑 审讯者"] -->|"文字提问"| A["对象 A"]
J -->|"文字提问"| B["对象 B"]
A -->|"回答"| J
B -->|"回答"| J
A -.-|"可能是人
也可能是机器"| B
style J fill:#e0f2fe,stroke:#0284c7,stroke-width:2px
style A fill:#fef3c7,stroke:#d97706,stroke-width:2px
style B fill:#fef3c7,stroke:#d97706,stroke-width:2px图灵测试的优点是操作性明确,但它也受到多方面批评:审讯策略可被「欺骗」(如 ELIZA 效应),且测试只评估语言行为,忽视了身体、情感和社会交互等维度。
Jeff Hawkins 的批评:为什么当前 AI 路线可能走偏
课程 PPT 引用了 Numenta 创始人 Jeff Hawkins 的尖锐观点:
「AI 研究者认为,一个程序如果在某些狭窄任务上的输出与人类相似甚至超越人类,那它就和大脑做这件事的方式一样好。这种『目的证明手段』的功能主义解释,将 AI 研究者引入了歧途。」
Hawkins 的核心主张是:智能是大脑的内部属性,要理解智能必须研究大脑新皮层。当前深度学习在工程上取得了巨大成功(Deep Blue、AlphaGo、ChatGPT),但从认知科学角度看,这些系统的工作原理与生物大脑相去甚远。
认知科学不只是定性描述认知现象,还需要计算建模来将理论形式化。
计算建模的价值
- 精确化:将模糊的言语术语转化为可操作的形式定义。说「注意力像聚光灯」不够精确,必须定义聚光灯的数学性质。
- 解释力:提供从输入到输出的完整因果链条,而不仅是输入-输出映射。
- 定量预测:就像气象学家用计算机模型预测明天的天气,认知模型的目标是预测人类在新情境中的表现。
理想化神经元:从生物到数学
认知科学中的神经网络(又称 PDP——并行分布式处理,或联结主义模型)用数学化的「单元」来模拟生物神经元。
理想化神经元模型
每个单元接收来自其他单元的输入信号,乘以连接权重 $w_{ij}$ 后求和,通过激活函数产生输出:
其中 $a_j$ 是单元 $j$ 的激活值,$w_{ij}$ 是从单元 $i$ 到单元 $j$ 的权重,$b_j$ 是偏置,$f(\cdot)$ 是激活函数。学习就是调整权重 $w_{ij}$ 的过程。
多层网络与反向传播
单层网络的表达能力有限。多层网络通过引入隐层,获得了更强的表征能力:
graph LR
subgraph 输入层
I1["x₁"]
I2["x₂"]
I3["x₃"]
end
subgraph 隐层
H1["h₁"]
H2["h₂"]
H3["h₃"]
end
subgraph 输出层
O1["y₁"]
O2["y₂"]
end
I1 --> H1 & H2 & H3
I2 --> H1 & H2 & H3
I3 --> H1 & H2 & H3
H1 --> O1 & O2
H2 --> O1 & O2
H3 --> O1 & O2
style I1 fill:#dbeafe,stroke:#3b82f6
style I2 fill:#dbeafe,stroke:#3b82f6
style I3 fill:#dbeafe,stroke:#3b82f6
style H1 fill:#fef3c7,stroke:#d97706
style H2 fill:#fef3c7,stroke:#d97706
style H3 fill:#fef3c7,stroke:#d97706
style O1 fill:#dcfce7,stroke:#16a34a
style O2 fill:#dcfce7,stroke:#16a34a激活信号从输入层流向隐层,再流向输出层。隐层单元会自发发展出对输入-输出关系的内部表征。权重调整最常用的算法是反向传播(Backpropagation)——将输出端的误差信号反向传播到每一层,据此调整权重。
从视网膜到初级视觉皮层(V1),信息传输面临严重的带宽限制:视网膜有约 1.3 亿个光感受器,但视神经只有约 120 万根神经节细胞轴突——压缩比约 100:1。大脑如何在如此有限的通道中保留足够的信息?
视觉信息瓶颈假说
核心假说:通过数据压缩理解早期视觉编码——在有限通道容量条件下最大化传输的信息。
设输入信号为 $S$,输入采样噪声为 $N$,神经编码为从 $S' = S + N$ 到神经响应 $O$ 的映射:
其中 $K$ 是编码函数,$N_o$ 是编码噪声。目标是最小化:
即在给定神经代谢代价约束下,最大化互信息 $I(O;S)$。
这个方向从理论到实验形成了完整的脉络:
| 年代 | 研究者 | 贡献 |
|---|---|---|
| 1950-60s | Barlow | 冗余度减少假说——神经元编码的目标是消除输入中的统计冗余 |
| 1980-90s | Laughlin, Linsker, Atick & Redlich, Li | 信息论数学公式化——用互信息最大化推导最优编码核 |
| 1990s | Bell & Sejnowski, Olshausen & Field | 计算机模拟验证——独立成分分析(ICA)和稀疏编码 |
这一脉络直接连接到本课程后续的视觉认知章节:V1 中发现的方向选择性边缘检测器,可以理解为信息论最优编码的生物学实现。
脑机接口(Brain-Machine Interface, BMI / Brain-Computer Interface, BCI)绕过大脑正常的周围神经和肌肉通路,在大脑与外部设备之间建立直接通信。
三种 BMI 类型
| BMI 类型 | 信息方向 | 核心功能 | 应用实例 |
|---|---|---|---|
| 感觉型 BMI(输入) | 外部 → 大脑 | 当自然感觉系统受损时提供感觉输入 | 人工耳蜗、视觉假体 |
| 运动型 BMI(输出) | 大脑 → 外部 | 将运动意图解码为设备控制命令 | 假肢控制、光标操控 |
| 认知型 BMI | 双向 | 解读内部神经元状态并反馈 | 癫痫预警、深部脑刺激(DBS) |
神经信号的空间-时间尺度
BMI 的性能在很大程度上取决于选择了哪种脑信号采集技术。不同技术在空间分辨率和时间分辨率之间有不同的权衡:
| 记录方式 | 带宽(近似) | 空间定位 | 侵入性 |
|---|---|---|---|
| 头皮电极(EEG) | 0 ~ 80 Hz | 容积导电,皮层表面 | 非侵入 |
| 皮层脑电图(ECoG) | 0 ~ 500 Hz | 皮层表面 | 半侵入 |
| 植入式微电极 | 0 ~ 7 kHz | 单神经元 | 侵入 |
BMI 的编码-解码框架
BMI 的基本框架是一个编码-解码对偶问题:
graph TD
subgraph 编码问题
S["刺激 Stimulus"] -->|"大脑如何编码"| B["脑信号 Brain Signal"]
end
subgraph 解码问题
B -->|"如何从信号推断意图"| I["意图 Intent"]
end
I --> D["设备动作"]
D -->|"环境反馈"| S
style S fill:#dbeafe,stroke:#3b82f6,stroke-width:2px
style B fill:#fef3c7,stroke:#d97706,stroke-width:2px
style I fill:#fce7f3,stroke:#db2777,stroke-width:2px
style D fill:#dcfce7,stroke:#16a34a,stroke-width:2px运动型 BMI 通常采用黑箱模型:用神经活动(输入)和行为输出(如手的位置)训练一个映射函数(FIR 滤波器、TDNN、RMLP 等),然后在测试阶段冻结权重,用新的神经数据预测运动意图。课程 PPT 提到 Nicolas Hatsopoulos 等人的猴脑实验:使用 54-192 个排序好的细胞,以 100ms 时间窗的放电率作为输入,训练约 33 分钟的数据后,可以成功预测猴子的手部运动轨迹。
BMI 实验范式示例
实验设置:猴脑 PP、M1、PMd、S1、SMA 区域植入微电极阵列,记录 54-192 个神经元的放电活动。猴子执行伸手抓取任务。
建模流程:
- 数据采集:以 100ms 时间窗对脉冲序列进行分箱计数,得到放电率序列;同时记录手部位置。降采样到 10Hz。
- 训练:用约 20,000 个样本(约 33 分钟数据)训练自适应滤波器(如 FIR、TDNN)。
- 测试:冻结权重,输入 3,000 个新样本(5 分钟),比较预测手部轨迹与实际轨迹。
结果:线性 FIR 滤波器就能实现较好的轨迹预测,说明运动皮层的放电模式中编码了足够的手部运动信息。
课程将感知-行动循环(Perception-Action Cycle)作为理解认知的统一框架。这一概念来自控制论和 Haykin 的认知动态系统理论。
感知-行动循环
一个具备人类大脑认知能力的「人工」动态系统,至少需要四种能力:学习与记忆、规划、注意、与世界交互。这四种能力通过感知-行动的持续循环组织在一起。
graph TD
ENV["🌍 环境"] -->|"感觉输入"| PERC["👁️ 感知"]
PERC -->|"表征"| COG["🧠 认知加工
学习 · 记忆 · 规划 · 注意"]
COG -->|"决策"| ACT["✋ 行动"]
ACT -->|"改变环境"| ENV
style ENV fill:#dcfce7,stroke:#16a34a,stroke-width:2px
style PERC fill:#dbeafe,stroke:#3b82f6,stroke-width:2px
style COG fill:#fef3c7,stroke:#d97706,stroke-width:2px
style ACT fill:#fce7f3,stroke:#db2777,stroke-width:2px这个循环的关键在于反馈:行动改变了环境,新的环境状态产生新的感觉输入,驱动下一轮感知和行动。认知系统不是被动的信息处理器,而是主动与环境耦合的动态系统。
Haykin 指出,这个架构不仅适用于生物大脑,也可以指导人工认知系统的设计。认知无线电(Cognitive Radio)的信号处理循环就是一个工程化类比:感知频谱环境 → 规划通信策略 → 执行传输 → 感知结果反馈。
课程导论的收尾部分将视线从认知科学转向工程实现:如何构建更像大脑的计算系统?
传统 ANN vs 脉冲神经网络
| 特性 | 传统 ANN | 脉冲神经网络(SNN) |
|---|---|---|
| 信息载体 | 连续激活值 | 离散脉冲序列 |
| 时间编码 | 无(或通过 RNN 隐式建模) | 有(脉冲的精确时序携带信息) |
| 生物学可信度 | 低 | 高 |
| 能量效率 | 中(密集矩阵乘法) | 高(事件驱动,仅脉冲时计算) |
| 学习规则 | 反向传播(全局梯度) | STDP 等局部生物学习规则 |
| 硬件支持 | GPU/TPU 成熟 | 类脑芯片(Loihi、TrueNorth)发展中 |
STDP:脉冲时序依赖可塑性
脉冲神经网络最重要的生物学习规则是 STDP(Spike-Timing-Dependent Plasticity),它将 Hebb 的「一起放电的细胞连在一起」假说精确化为时间不对称的形式。
STDP 学习规则
突触权重的变化取决于突触前和突触后脉冲的相对时序:
其中 $\Delta t$ 是突触前脉冲时间 $t_{\text{pre}}$ 与突触后脉冲时间 $t_{\text{post}}$ 之差,$A^+, A^-$ 是最大增减幅度,$\tau^+, \tau^-$ 是时间常数。
千脑理论
Jeff Hawkins 提出的千脑理论(Thousand Brains Theory)提供了一个关于新皮层如何工作的统一假说:
千脑理论要点
- 人体新皮层包含约 150,000 个皮层柱(cortical columns),每个皮层柱独立构建对世界的完整模型
- 每个皮层柱使用感觉-运动输入和参考框架(reference frames)来学习物体的结构
- 知识通过「精神运动」实现——在参考框架中移动是学习和理解的关键
- 不同皮层柱之间的投票机制产生统一的感知
本讲搭建了认知科学的整体框架。后续章节将依次深入每个认知子领域,均会用到本讲建立的概念工具——Marr 三层分析、计算建模方法论、感知-行动循环。
复习速查
| 概念 | 一句话记忆 |
|---|---|
| 认知科学 | 六学科交叉研究心智,核心假设是「思维 = 表征 + 计算」 |
| Marr 三层 | 计算理论(为什么)→ 算法表征(怎么做)→ 实现(用什么做) |
| 弱AI / 强AI | 弱AI 是工具,强AI 主张机器有心智;中文房间反驳强AI |
| 图灵测试 | 行为主义判据:无法区分即通过;不等于真正理解 |
| 计算建模 | 精确化理论 + 解释机制 + 定量预测 |
| 信息瓶颈 | 视神经压缩比 100:1,大脑用信息论最优编码应对带宽限制 |
| BMI 三型 | 感觉型(输入)→ 运动型(输出)→ 认知型(双向反馈) |
| 感知-行动循环 | 感知 → 认知 → 行动 → 反馈 → 新感知的持续循环 |
| STDP | 前先于后 → LTP(加强);后先于前 → LTD(削弱) |
| 千脑理论 | 150,000 个皮层柱各建完整模型,投票产生统一感知 |
参考来源
- 西安交通大学「计算认知科学与工程」课程 Introduction PPT(马永强)
- Marr, D. (1982). Vision: A Computational Investigation into the Human Representation and Processing of Visual Information. MIT Press. MIT OECS: Levels of Analysis
- Hawkins, J. (2004). On Intelligence. Times Books.
- Hawkins, J. et al. (2017). A Framework for Intelligence and Cortical Function. Numenta. Numenta Paper
- Searle, J. R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-457. Wikipedia: Chinese Room
- Levels of Analysis for Large Language Models (2025). arXiv:2503.13401
- Dayan, P. & Abbott, L.F. (2001). Theoretical Neuroscience. MIT Press.
- Haykin, S. (2012). Cognitive Dynamic Systems. Wiley.
- Brain–computer interface. Wikipedia. Wikipedia: BCI
- Rathi, N. et al. (2023). Exploring Neuromorphic Computing Based on Spiking Neural Networks. ACM Computing Surveys. ACM DL