视觉认知
视觉认知是认知科学中历史最悠久、证据链最完整的子领域。从 Hubel 与 Wiesel 在猫的 V1 皮层插入微电极开始,到今天用 fMRI 重建人脑正在观看的图像,视觉研究始终走在认知神经科学方法论的最前沿。本讲沿着「光信号 → 神经表征 → 主观体验 → 物体识别」的完整链路展开。
学完本讲你应该能够回答:光子进入眼睛后发生了什么?为什么需要侧抑制?为什么不同脑区负责不同的视觉属性?心理表象是「图」还是「句子」?物体识别为什么没有"模板"那么简单?交互激活模型如何解释词优效应?脑成像如何"读"出你正在看什么?
前置知识回顾
- 神经元的激活与发放:动作电位、感受野、兴奋-抑制平衡。本讲大量使用这些概念。
- 信息论基础:通道容量、瓶颈假设。本讲在视觉通路中再次出现。
- 实验心理学范式:反应时(RT)方法、眼动追踪、单细胞记录。本讲在心理旋转、词优效应部分使用。
- 类脑计算导论:Marr 三层分析、神经网络的层级表征。本讲是这个框架的第一次具体应用。
第一部分解决一个看似简单的问题:当你睁开眼睛看见一个红色的苹果时,信号从光子被吸收到大脑产生「红色、圆形、苹果」的感知,中间经历了什么?神经科学半个多世纪的研究已经基本厘清这条通路——从视网膜上 1.3 亿个光感受器,到初级视皮层 V1 简单的方位选择性细胞,再到 V5 对运动方向的精确编码。这条通路遵循一条基本设计原则:层级聚合。每往上一步,神经元整合的视野范围更大、特征更抽象。
视网膜与光感受器:视觉通路的起点
人眼视网膜上有两类光感受器(photoreceptor)。它们在功能上的分工是视觉信息处理的第一道"分拣"。
视杆细胞 vs 视锥细胞
| 特征 | 视杆细胞 (Rods) | 视锥细胞 (Cones) |
|---|---|---|
| 数量 | 约 9200 万 | 约 600-700 万 |
| 分布 | 视网膜周边 | 中央凹 (fovea) 密集 |
| 敏感度 | 高(弱光下工作) | 低(强光下工作) |
| 颜色 | 无色觉 | 三种锥体,分别对长/中/短波长敏感(L/M/S) |
| 功能 | 暗视觉 (scotopic) | 明视觉、色觉、精细视觉 |
光感受器并不直接连到大脑。从感光到信号送出视网膜要经过中间神经元的两层处理:
- 双极细胞 (Bipolar cells):把光感受器的信号前向传给神经节细胞。
- 水平细胞 (Horizontal) 与无长突细胞 (Amacrine):在同一层内做侧向 (lateral) 信号整合,正是后面要讲的「侧抑制」的细胞学基础。
- 神经节细胞 (Ganglion cells):视网膜的输出细胞,其轴突汇聚成视神经 (optic nerve)。
简化信号流:从视网膜到初级视皮层
从信号流的角度,视觉信息走过的关键节点可以压缩为一条七站链:
graph TD A["光感受器
Rods and Cones"] --> B["双极细胞
Bipolar"] B --> C["神经节细胞
Ganglion"] C --> D["视交叉
Optic Chiasm"] D --> E["外侧膝状体
LGN"] E --> F["V1 初级视皮层
Primary Visual Cortex"] F --> G["高级视觉区
V2 V3 V4 V5"] G --> H["物体识别
Object Recognition"] A -- "光转电" --> B B -- "中心-周围
拮抗结构" --> C C -- "动作电位
沿视神经" --> D D -- "左右视野
分离重组" --> E E -- "中继与门控" --> F F -- "方位/眼优势
柱状组织" --> G G -- "功能特化" --> H classDef node fill:#6366f126,stroke:#6366f1,color:#e8e8f0; classDef endnode fill:#ec48992e,stroke:#ec4899,color:#fce7f3; class A,B,C,D,E,F,G node; class H endnode;
其中两个节点需要特别说明:
视交叉 (Optic Chiasm)
来自鼻侧视网膜的纤维在视交叉处交叉到对侧,来自颞侧视网膜的纤维留在同侧。结果是:左视野的信息由右半球处理,右视野的信息由左半球处理。这是「两个半脑看到不同视野」的解剖学基础。
外侧膝状体 (LGN)
LGN 是丘脑的一个中继核团,接收来自视网膜的输入并投射到 V1。LGN 的精确功能至今不完全清楚,但已知它有强大的皮层反馈连接——V1 反过来调控 LGN,这意味着 LGN 不是简单的"水管",而是主动的门控与调制结构。
感受野 (Receptive Field):神经元的"窗口"
理解视觉通路的关键概念是感受野。Hubel 与 Wiesel 因对猫和猴 V1 神经元的系统研究获得 1981 年诺贝尔生理学或医学奖,其核心发现就是层级式感受野。
感受野 (Receptive Field, RF)
能引起某个神经元发放的视网膜区域。对于视网膜神经节细胞,RF 是视网膜上的一片小区域;对于 V1 的简单细胞,RF 是视野中的一小块带方向性的区域;对于 V5/MT 的细胞,RF 可能大到包含整个视野区域。
视觉通路上的几类典型 RF 单元:
ON-OFF 细胞 (中心-周围拮抗)
视网膜神经节细胞的最常见类型。RF 由两部分组成:
- 中心 (center):对光照起兴奋性反应(ON 区)。
- 周边 (surround):对光照起抑制性反应(OFF 区),反之亦然(OFF-ON 细胞)。
这类细胞实际上是一个边缘/亮度差检测器——只对中心与周边的亮度差敏感,对均匀光不响应。这是后面「侧抑制」的细胞学基础。
方位选择性细胞 (Orientation-selective cells / Simple cells)
Hubel 与 Wiesel 在 V1 发现:
- V1 神经元对视野中具有特定方位的明亮条形 (bar) 反应最强。
- 对方位偏离 $90°$ 的刺激几乎无反应。
- 不同细胞偏好不同方位,覆盖 $0°-180°$ 全范围。
关键洞见:这些细胞可以从 on-off 细胞通过汇聚 (convergence) 构造——把若干个 on-off 中心排列成一条直线,所有这些中心的输入汇聚到 V1 简单细胞。这正是 Marr 算法的具体实现:把低层特征组合成高层特征。
把 Hubel-Wiesel 的发现抽成一句话:高级特征 = 低级特征的空间聚合。这个原则贯穿整个视觉通路:
- V1 简单细胞 = 一排 ON-OFF 中心的汇聚
- V1 复杂细胞 = 多个简单细胞(覆盖位置变化)的汇聚
- V5/MT 方向细胞 = 多个复杂细胞(覆盖运动速度)的汇聚
- 颞下皮层 (IT) 面孔细胞 = 多个部件检测器(眼/鼻/嘴)的汇聚
侧抑制 (Lateral Inhibition):边缘增强的算法
侧抑制是神经科学里最简洁、最可视化的算法之一。Mach 在 19 世纪描述的现象 (Mach Bands) 是它的经典例证。
例 · Mach Bands 与侧抑制
把六个灰度递增的矩形条并排放在一起——尽管每个矩形内部的灰度是均匀的,你却会看到:每个矩形的右侧显得比左侧更亮,左侧显得更暗。这种边缘错觉被称为 Mach Bands。
原因:在中心-周围拮抗的 ON-OFF 细胞中,处于"暗-亮"边界处的细胞,其 ON 中心被亮侧激活而 OFF 周边被暗侧激活——两侧都得到最大刺激,反应远高于只被亮侧均匀照射的内部细胞。这导致边界处的神经反应比内部更强烈,主观亮度被"夸大"。
侧抑制的数学表达
对神经元 $i$ 的输出 $r_i$,侧抑制形式化为从邻域神经元的减法:
其中 $r_k$ 是空间上相邻神经元的发放,$\alpha_{ik} > 0$ 是抑制权重。这个减法项就是侧抑制。Lateral inhibition 让高发放的神经元压制邻居,从而放大局部对比、抑制冗余的均匀信号。
侧抑制的三大功能
- 边缘增强:在亮度阶跃处放大对比,让边界更易被检测(Mach Bands)。
- 节省编码资源:均匀光不激活细胞,把动态范围留给真正变化的区域。
- 减少冗余:相邻细胞对同一信号做去相关,是无监督特征学习的雏形(与 ICA、Sparse Coding 思想一致)。
功能特化 (Functional Specialization)
从 V1 往上,视觉皮层分裂成多个并行通路。1982 年 Ungerleider 与 Mishkin 提出著名的腹背流 (ventral-dorsal stream) 假说,把高级视觉分成"What"和"Where"两条通路:
腹侧流 (Ventral Stream) vs 背侧流 (Dorsal Stream)
- 腹侧流 (V1→V2→V4→IT):从枕叶绕到颞叶腹侧。回答「What is it?」——物体识别、面孔、文字。
- 背侧流 (V1→V2→V3→V5/MT→顶叶):从枕叶向上到顶叶。回答「Where is it? How to act?」——空间位置、运动、动作引导。
在每个流内部又有更细的特化。最有说服力的证据来自脑损伤 (lesion) 研究:
功能特化损伤案例
| 损伤区 | 症状 | 英文术语 | 现象 |
|---|---|---|---|
| V4 | 全色盲 | Achromatopsia | 失去所有颜色知觉,世界变为灰度;连对颜色的记忆也消失。 |
| V5 / MT | 运动失认 | Akinetopsia | 看见运动物体如同定格画面,"如同一串静照"。 |
| 梭状回面孔区 (FFA) | 面孔失认 | Prosopagnosia | 认不出熟人的脸,但能通过声音/步态识别。 |
| 外纹状视觉区 (LOC) | 视觉物体失认 | Visual object agnosia | 看见物体但说不出名字或用途。 |
感觉绑定问题 (Sensory Binding Problem)
功能特化引出了一个深刻的理论难题:
「如果空间上分离的不同脑区分别负责形状、颜色、运动、方向等属性……那么大脑如何把这些属性『绑定』在一起,形成对一个物体的统一感知?」
绑定问题 (Binding Problem)
当分立的神经模块独立处理一个物体的不同属性(颜色、形状、运动、深度),大脑如何知道哪些属性属于同一物体,从而把它们"装配"成一个统一的感知?
这个问题的关键在于:信息被分散地处理了,但感知是统一的。"装配"过程在哪里、以什么机制发生,至今没有统一答案。
三种主要假说:
- 同步振荡假说 (Binding by synchrony):属于同一物体的神经元在 $40\,$Hz 附近同步发放,跨区域振荡是"装配标签"(Singer、Engel 等的猫 V1 实验)。
- 位置假说 (Binding by location):因为 V1 的视网膜拓扑映射 (retinotopic map),空间位置天然绑定——同一位置激活的多种特征被自动归到一起。
- 注意假说 (Feature Integration Theory, FIT):Treisman 提出,绑定需要空间注意把不同特征"粘合"到主图 (master map) 上。下一章「注意力」会详细讨论。
本章关键结论 (Part I)
- 视觉通路是层级聚合的:低层特征 → 中层组合 → 高层抽象。
- 每个神经元都有感受野,RF 沿层级扩大,特征选择性增加。
- 侧抑制在算法的层面对比度增强、减少冗余,是边缘检测的神经实现。
- 皮层功能特化:V4→颜色, V5→运动, FFA→面孔。损伤研究给出因果证据。
- 功能特化导致绑定问题——这正是从「分散处理」到「统一感知」的认知-神经鸿沟。
第二部分从「看见」跨越到「想象」。当你闭上眼睛想象一只猫在你家客厅里跑,脑海里的那只猫——它是「图」还是「句子」?这个问题曾经让认知科学分裂成两个阵营。
为什么心理表象的研究困难
心理表象 (mental imagery) 在 20 世纪上半叶是认知心理学的禁区。行为主义把不能直接观察的内部状态排除在科学之外——你无法称量一只想象的猫,无法用尺子量一段想象的路程。直到 1960 年代认知心理学革命,内部表征 (internal representations) 重新成为合法研究对象,心理表象才得以"复活"。
心理表象 (Mental Imagery)
Kosslyn & Thompson (2003) 给出被广泛引用的定义:
「视觉心理表象出现在视觉短时记忆 (visual STM) 表征处于激活状态、但刺激并未实际呈现时;它伴随着一种『用心灵之眼看见』的体验。」
简言之:没有光子进入眼睛,但视觉皮层仍处于"看到"的状态。
模拟 vs 命题之争
心理表象的表示格式是什么?这是 1970-80 年代认知心理学最激烈的争论之一。争论双方提出了截然不同的表示假设。
两种对立的表示假说
| 假说 | 表示形式 | 类比 | 主要支持者 |
|---|---|---|---|
| 模拟 (Analog / Depictive) | 表示的结构与被表示物的空间结构同构(图) | 地图、照片、屏幕像素 | Kosslyn、Shepard |
| 命题 (Propositional) | 用类语言符号描述物体与关系,无空间结构(句子) | 数据库记录、关系表 | Pylyshyn |
on(red-square, blue-square)(命题表示)——方位被编码为符号关系,与空间无关。支持模拟表示的三大经典证据
三类实验证据强有力地支持了"心理表象是模拟的"假说:
证据 1 · 心理旋转 (Mental Rotation, Shepard & Cooper 1973)
让被试判断两个图形(一个是另一个旋转后的版本)是否相同。如果心理表象是模拟的,被试应该在"心里"把第一个图形旋转到与第二个一致,再比较。
- 预测:反应时 (RT) 与两个图形之间的旋转角度呈线性正相关。角度越大,旋转越费时。
- 结果:RT = $a + b \cdot \theta$ 在 $0°-180°$ 范围内拟合极佳。
线性关系是关键:命题表示不会预测"30° 比 60° 慢一半"——句子没有角度概念。如果表象是句子,反应时应该与角度无关。
例 · 心理旋转实验范式
屏幕左侧出现一个图形(如字母 F),右侧出现另一个图形(如旋转了 $90°$ 的 F)。被试按键判断"相同 / 不同"。系统变化旋转角度,记录 RT。结果如图:
- 角度 $0°$:RT 最小(无需旋转即可比较)。
- 角度 $180°$:RT 最大(要旋转半圈)。
- 中间角度:RT 随角度线性增长,斜率约 $2$ ms/度。
这种线性增长是模拟旋转最直接的证据。
证据 2 · 扫描实验 (Image Scanning, Kosslyn 1978)
让被试记忆一张地图(如一幅小岛地图,岛上有树、池塘等标志物)。然后问"从树到池塘"需要"扫视"多远。结果:
- 被试报告的"扫视时间"与地图上树到池塘的实际距离正相关。
- 距离远的物体比距离近的物体需要更长的"扫描"时间。
这意味着表象保留了度量空间信息 (metric spatial information)——命题表示不会保留这些。
证据 3 · 脑成像证据 (fMRI, Kosslyn et al. 1999)
用 fMRI 直接观察被试在视觉想象时的脑活动:
- 早期视觉皮层 (V1) 在心理表象任务中显著激活。
- 激活的强度与表象的"大小"相关——想象"一只鹰掠过视野"时 V1 的活动模式与实际看到类似。
这个发现直接挑战了命题假说——如果表象是"句子",视觉皮层不应被激活。表象不仅"看起来像"视觉,它就是视觉皮层的部分激活。
认知地图的扭曲:表象不是「完美复制」
但表象不是视觉的"完美复刻"。一个重要现象是认知地图 (cognitive map) 中的系统性扭曲——人们在头脑中持有的地理空间表征,受到概念知识的强烈影响。
例 · Reno vs San Diego:哪个更靠东?
看地图就知道,San Diego 在南加州(西海岸),Reno 在内华达州(明显更东)。但许多人凭直觉回答"Reno 更东"——因为他们应用了概念知识:
- 内华达州 (Nevada) 在加利福尼亚州 (California) 的东边。
- Reno 在内华达,San Diego 在加利福尼亚。
- 所以 Reno 应该比 San Diego 更东。
这种推理在州尺度上是对的,但在城市尺度上产生了系统性错误——它揭示了层级化概念组织 (hierarchical conceptual organization) 对心理表象的扭曲。
表象与感知的对比:分辨率与错觉
分辨率缩放 (Finke & Kosslyn 1980)
让被试判断视野中两个点是否能被区分,定义视野分辨率 (field of resolution)。结果:
- 实际观看时与心理想象时的分辨率模式高度相似。
- 两种情况下,水平 vs 垂直方向有类似的"分辨率各向异性"(中心比周边分辨率高)。
这说明心理表象与视觉感知共享一套"显示设备"——它们使用相同的低层视觉资源。
但表象和感知也有不同:
- 表象中物体的大小受注意力影响:蜜蜂旁的兔子没有大象旁的兔子"细节丰富"(Russell's 兔子头)。
- 表象受错觉影响(如 Ponzo 错觉),但效应比真实视觉弱。
- 表象不易重读,如 Necker 立方体(一旦按一种方式"看见"了,另一种解释很难想象出来)。
本章关键结论 (Part II)
- 心理表象不是纯命题表示——三类经典实验(心理旋转、扫描、fMRI)都支持模拟表征。
- 表象复用视觉皮层:想象一只猫会部分激活 V1 等早期视觉区。
- 但表象≠视觉——它受到概念知识调制(认知地图扭曲),且难以重读。
- 表象是准图画 (quasi-pictorial) 但非纯空间:模拟的,但有概念介入。
第三部分解决认知科学中"最难的问题之一":物体识别 (object recognition)。我们能在 $100$ ms 内从一瞥中认出物体——"这是一只猫"——而不论它的视角、大小、颜色、姿态、光照如何变化。这种不变性 (invariance) 至今是计算机视觉的核心难题。
为什么物体识别难:视角与形变的不变性
同一个物体在视网膜上的成像可以差异巨大:
- 旋转、缩放、位移 (translation, rotation, scale)
- 光照变化、遮挡、变形
- 同类物体的"例间变化" (intra-class variation):猫和猫的差异
认知系统必须找到一个"与具体图像无关"的物体本质。四大经典识别理论以不同方式回答"什么是不变的":
四大物体识别理论概览
| 理论 | 不变量 | 核心假设 | 主要问题 |
|---|---|---|---|
| 模板匹配 (Template) | 原样匹配 | 把输入与存储的模板逐像素比较 | 无法处理形变;模板数爆炸 |
| 特征理论 (Feature) | 特征集合 | 物体 = 特征袋 (bag of features) | 特征相同但物体不同 (结构信息丢失) |
| 成分识别 (RBC / Geons) | 几何成分 + 空间关系 | 物体 = 24 个 geon 的组合 | 难以处理颜色/纹理;复杂自然图像难分 |
| 构型模型 (Configural / Exemplar) | 与原型的距离 | 存储类别原型,按距离判别 | 无法解释部件关系;面孔倒置效应 |
理论 1 · 模板匹配 (Template Matching)
最朴素的想法:识别 = 比对。预先存储一组"模板"(标准图案),把输入和每个模板比较,匹配最好的就识别为该模板代表的物体。
问题 1:变换不变性。如果物体被旋转、缩放、平移,模板可能不直接匹配。解决方案:先用一组变换 (translation, rotation, scale) 把输入与模板"对齐",再比较。但搜索空间巨大(3 个变换参数 × 巨大范围)。
问题 2:模板数量爆炸。要识别不同大小、方向、颜色的"M",要存储指数级数量的模板。
问题 3:忽略直觉。一个"M" 在视觉上是一个 M,不管你把它放大、涂红、还是倾斜;模板匹配无法捕捉"本质相同"这件事。
模板匹配的适用场景
模板匹配在约束环境下表现优异:
- 指纹识别:指纹图案基本不变形、类内差异小。
- 工业检测:待检测物体在固定位置/姿态出现。
- 字符识别 (印刷体):字体、大小已知。
但对一般物体识别(如自然场景中的猫)远远不够。
理论 2 · 特征理论 (Feature Theories)
Selim Selfridge 1959 年的 "Pandemonium" 模型是特征理论的早期实现。核心思想:
特征匹配模型 (Feature-matching Models)
把每个物体分解为一组特征 (features)。识别时搜索这些特征的存在——只要特征集合对得上,就识别为该物体。
特征理论很好地契合神经科学的并行分布处理 (PDP) 思想:每个特征检测器都是一个独立的"恶魔" (demon),并行工作;物体识别是这些恶魔的集体投票。
优势:
- 部分遮挡时仍可识别(局部特征存在即可)。
- 特征检测器可以独立工作,支持并行处理。
- 神经上有对应物——Hubel-Wiesel 的"条形检测器"就是特征检测器的神经实现。
致命问题:
这个缺陷直接催生了下一个理论:结构理论 (structural theories),核心是「物体 = 特征 + 特征间关系」。
理论 3 · 成分识别 / RBC (Biederman 1987)
Irving Biederman 在 1987 年提出成分识别理论 (Recognition-By-Components, RBC),把结构信息显式纳入模型。
RBC / Geon 理论
任何三维物体都可以被分解为大约 24 个基本几何体 (geons, geometric ions) 的组合。识别 = 识别 geon + 识别 geon 间的空间关系。
类比:英语有 26 个字母,几十万单词都由这些字母组合而成;视觉有 24 个 geon,所有物体都由这些 geon 组合而成。
为什么是这 24 个 geon?它们的选择基于一个关键概念:非偶然属性 (non-accidental properties, NAPs)。
非偶然属性 (Non-Accidental Properties, NAPs)
在大多数视角下,物体部件之间呈现的关系(平行、共线、对称、连续)是视角无关的——从任何视角看,"两个部件共线"几乎都意味着它们在 3D 中是共线的(除非是罕见的"偶然视角")。
基于 NAPs 划分的 geon 从大多数视角都能被正确识别,这被称为视角不变性 (viewpoint invariance)。
graph TD
A["3D 物体"] --> B["分线 (line drawing)"]
B --> C{"识别 geons
(24 个几何体)"}
C --> D["Geon 1: 圆柱"]
C --> E["Geon 2: 圆锥"]
C --> F["Geon 3: 立方块"]
C --> G["..."]
D --> H["空间关系 (NAPs)"]
E --> H
F --> H
G --> H
H --> I["结构描述
Structural Description"]
I --> J["物体识别
Object Recognition"]
classDef node fill:#6366f11f,stroke:#6366f1,color:#e8e8f0;
classDef endnode fill:#22c55e2e,stroke:#22c55e,color:#dcfce7;
class A,B,C,D,E,F,G,H,I node;
class J endnode;RBC 的预测:
- 当物体的 geon 可以被恢复时,识别较快;
- 破坏顶点 (vertices)(连接两个 geon 的关键点)比简单删除线条更影响识别——因为顶点是 geon 划分的依据。
RBC 的局限:
- 结构描述不够:要区分两把不同的椅子,仅靠 geon 组合不够——需要尺寸、比例、纹理等度量信息 (metric information)。
- 难以从真实图像提取 geon:分线提取、顶点检测在噪声图像上很困难。
- 忽略颜色/纹理:许多物体(橘子 vs 葡萄柚)靠颜色和纹理区分,geon 一样。
理论 4 · 构型模型 (Configural / Exemplar Models)
构型模型把焦点从"抽象结构"转向"具体例子的分布"。
构型模型 / 原型说
每个类别存储一个原型 (prototype)——类别中所有例子的"平均"。识别 = 把当前输入与原型比较,看距离多远。
这能解释 RBC 难以解释的例间变异 (intra-class variability):两只不同的猫由"猫原型"的两个不同位置表示,识别时根据距离判别。
最有名的预测:
漫画效应 (Caricature Effect)
对脸做漫画化 (caricature)处理——夸大这张脸相对平均脸 (prototype) 的特征差异——人脸识别率不下降,甚至上升。
这是构型模型的直接证据:识别看的是"相对原型的偏离方向与幅度",漫画化增大了这个幅度,反而更易识别。
构型效应在倒置时消失 (Face Inversion Effect):
- 正立时,识别一张脸更多依赖整体构型 (configural processing)。
- 倒置时,构型处理被破坏,被试退回到局部部件分析,识别能力急剧下降。
这是构型模型独有的预测——RBC 不会预测倒置效应(它对正立/倒立一视同仁)。
词优效应与交互激活模型 (IA Model)
物体识别中上下文 (context) 的影响是另一个关键问题。最经典的实验是词优效应 (Word Superiority Effect)。
词优效应 (Word Superiority Effect)
识别一个孤立字母比识别一个嵌在真词中的同一字母更难。例如:
- 呈现
K单独:识别率 80% - 呈现
WORK中的K:识别率 95% - 呈现
TWZK中的K:识别率与孤立K接近
关键:词优效应不只是反应偏向 (response bias)——敏感度 (sensitivity, d') 也提高了,说明词汇知识真的影响了字母识别。
这种"高层影响低层"的现象不能用纯 bottom-up 解释。McClelland & Rumelhart 1981 年提出交互激活模型 (Interactive Activation, IA Model),把视觉识别形式化为三层神经网络:
graph TD L0["特征层 (Feature)
笔画/线段/角点"] L1["字母层 (Letter)
A B C ... Z"] L2["词层 (Word)
CATS WORK DARK ..."] L0 -- "Bottom-up
特征激活字母" --> L1 L1 -- "Bottom-up
字母激活词" --> L2 L2 -. "Top-down
词激活字母" .-> L1 L0 -. "Top-down
词激活特征" .-> L0 L1 -- "侧抑制
字母之间互抑" --> L1 L2 -- "侧抑制
词之间互抑" --> L2 classDef feature fill:#22c55e26,stroke:#22c55e,color:#dcfce7; classDef letter fill:#6366f126,stroke:#6366f1,color:#e8e8f0; classDef word fill:#ec489926,stroke:#ec4899,color:#fce7f3; class L0 feature; class L1 letter; class L2 word;
IA 模型的工作机制
- 三层:特征 → 字母 → 词。每层有多个节点,每个节点有一个激活值。
- 两类连接:层间有兴奋性和抑制性连接。
- 同层抑制 (lateral inhibition):同一层的节点互相竞争。
- 双向流动:激活同时从下到上 (bottom-up) 和从上到下 (top-down) 流动。
WORK 时:
- 从特征来的 bottom-up 信号同时激活 W、O、R、K 等多个字母(部分激活)。
- 词层中
WORK收到来自 W、O、R、K 的累积激活,开始变强。 - 词
WORK激活后,通过 top-down 连接回送激活到字母 W、O、R、K,让它们的激活值上升。 - 字母 K 因此比"孤立"情况下更易被识别——这就是词优效应。
在 TWZK 这种非词里,词层没有对应的节点被激活,top-down 信号不存在,K 不会得到增强。
脑解码:从脑活动中「读」出看到的内容
21 世纪视觉认知的另一个重大突破是用 fMRI 直接从脑活动中读出你正在看什么。
Haxby et al. 2001 · 96% 准确率的多体素模式分类
Haxby 等人用多体素模式分析 (MVPA, multi-voxel pattern analysis) 在腹侧颞叶皮层 (VTC) 解码被试看到的物体类别:
- 呈现 8 类物体:面孔、猫、剪刀、椅子、房子、瓶子、鞋子、随机图。
- 训练分类器(神经网络/SVM)从 VTC 的 fMRI 模式中预测类别。
- 在新图像上达到 96% 准确率。
关键发现:不同类别的物体在 VTC 呈现分布且重叠 (distributed and overlapping) 的表征——没有"面孔细胞"或"猫细胞"这样的局部编码,而是整片皮层共同编码,每个体素贡献部分信息。
Miyawaki et al. 2008 · 从 fMRI 重建视觉图像
Miyawaki 等人更激进——他们试图重建被试正在看的简单图案:
- 呈现 $10 \times 10$ 的二值棋盘格 (100 比特)。
- 用多尺度 fMRI 信号 + 贝叶斯先验 (natural image statistics) 重建图像。
- 虽然重建分辨率不高,但呈现了从脑活动到像素级的反向映射可行性。
这个结果打开了"视觉读心术 (visual mind reading)"的大门,也引发了对神经隐私的伦理讨论。
本章关键结论 (Part III)
- 物体识别没有"银弹"——模板匹配适合约束场景,特征理论处理形变,RBC 解决结构信息,构型模型处理例间变异。
- 词优效应证明高层知识影响低层识别——IA 模型用双向激活流(bottom-up + top-down + 侧抑制)解释。
- 脑解码(Haxby 96%, Miyawaki 重建)显示视觉表征是分布式的,从脑活动可以反推你正在看什么。
- 四大理论并不互斥——现代观点认为人脑使用它们的某种组合:早期快速特征检测 → 中层部件组装 → 高层构型与上下文调制。
复习速查 · 视觉认知核心要点
视觉通路(一句话):光感受器 → 双极 → 神经节 → 视交叉 → LGN → V1 → V2-V5(腹侧 What 流 / 背侧 Where 流)。
感受野(关键概念):
- ON-OFF 细胞 = 边缘检测器,中心-周围拮抗。
- 简单细胞 = 一排 ON-OFF 中心,对特定方位的条形反应强。
- 复杂细胞 = 多个简单细胞的汇聚,对位置变化不敏感。
- 原则:高层 RF = 低层 RF 的空间聚合。
侧抑制(一句话):神经元的活动压制邻居的响应 → 增强边缘对比(Mach Bands)、减少冗余。
功能特化(速记):V1 边缘/方位 · V2 主观轮廓 · V3 复杂运动 · V4 颜色 · V5/MT 运动方向 · FFA 面孔。
绑定问题:分立模块独立处理后如何形成统一感知?假说:同步振荡、位置不变、注意绑定 (FIT)。
心理表象(核心):模拟表征而非纯命题,证据来自心理旋转 (RT 与角度线性) / 扫描实验 / fMRI。但表象≠视觉,受概念调制(认知地图扭曲)。
物体识别四大理论:
- 模板匹配:原样比对,简单但僵硬。
- 特征理论:特征袋,丢失结构。
- RBC / Geons:24 个几何体 + 空间关系,处理视角不变性。
- 构型模型:与原型的距离 + 漫画效应 + 倒置效应。
词优效应与 IA 模型:词比孤立字母更易识别 → top-down 词 → 字母的反馈。
脑解码里程碑:Haxby 2001 (96% 8 类分类) + Miyawaki 2008 (fMRI 重建视觉图案)。
参考来源
- Hubel, D. H., & Wiesel, T. N. (1962). Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. Journal of Physiology, 160(1), 106-154.
- Mach, E. (1865). Über die Wirkung der räumlichen Vertheilung des Lichtreizes auf die Netzhaut. Sitzungsberichte der kaiserlichen Akademie der Wissenschaften.
- Ungerleider, L. G., & Mishkin, M. (1982). Two cortical visual systems. In Analysis of Visual Behavior (pp. 549-586). MIT Press.
- Zeki, S. (1990). The motion vision area MT/V5 in man. Philosophical Transactions of the Royal Society B, 335(1273), 267-275.
- Treisman, A. M., & Gelade, G. (1980). A feature-integration theory of attention. Cognitive Psychology, 12(1), 97-136.
- Kosslyn, S. M., & Thompson, W. L. (2003). When is early visual cortex activated during visual mental imagery? Psychological Bulletin, 129(5), 723-746.
- Shepard, R. N., & Cooper, L. A. (1982). Mental images and their transformations. MIT Press.
- Finke, R. A., & Kosslyn, S. M. (1980). Mental imagery acuity in the peripheral visual field. Journal of Experimental Psychology: Human Perception and Performance, 6(1), 126-139.
- Pylyshyn, Z. W. (2002). Mental imagery: In search of a theory. Behavioral and Brain Sciences, 25(2), 157-182.
- Biederman, I. (1987). Recognition-by-components: A theory of human image understanding. Psychological Review, 94(2), 115-147.
- McClelland, J. L., & Rumelhart, D. E. (1981). An interactive activation model of context effects in letter perception: Part 1. Psychological Review, 88(5), 375-407.
- Haxby, J. V., et al. (2001). Distributed and overlapping representations of faces and objects in ventral temporal cortex. Science, 293(5539), 2425-2430.
- Miyawaki, Y., et al. (2008). Reconstructing visual experiences from brain activity evoked by visual patterns. Neuron, 60(5), 869-876.
- Solso, R. L., MacLin, M. K., & MacLin, O. H. (2005). Cognitive Psychology (8th ed.). Pearson. (Chapter 4: Visual Perception & Imagery)