视觉认知

2026/05/20 00:22:11·2026/06/08 20:30:00

Part 0 · 学习目标

视觉认知研究什么

视觉认知是认知科学中历史最悠久、证据链最完整的子领域。从 Hubel 与 Wiesel 在猫的 V1 皮层插入微电极开始，到今天用 fMRI 重建人脑正在观看的图像，视觉研究始终走在认知神经科学方法论的最前沿。本讲沿着「光信号 → 神经表征 → 主观体验 → 物体识别」的完整链路展开。

学完本讲你应该能够回答：光子进入眼睛后发生了什么？为什么需要侧抑制？为什么不同脑区负责不同的视觉属性？心理表象是「图」还是「句子」？物体识别为什么没有"模板"那么简单？交互激活模型如何解释词优效应？脑成像如何"读"出你正在看什么？

前置知识回顾

神经元的激活与发放：动作电位、感受野、兴奋-抑制平衡。本讲大量使用这些概念。
信息论基础：通道容量、瓶颈假设。本讲在视觉通路中再次出现。
实验心理学范式：反应时（RT）方法、眼动追踪、单细胞记录。本讲在心理旋转、词优效应部分使用。
类脑计算导论：Marr 三层分析、神经网络的层级表征。本讲是这个框架的第一次具体应用。

PDFVisual Cognition 1 PPT 首页p.1

pdf/认知科学/Visual Cognition 1.pdf · p.1

打开原文

Part I · 视觉感知基础

从光感受器到 V5：视觉通路与层级组织

第一部分解决一个看似简单的问题：当你睁开眼睛看见一个红色的苹果时，信号从光子被吸收到大脑产生「红色、圆形、苹果」的感知，中间经历了什么？神经科学半个多世纪的研究已经基本厘清这条通路——从视网膜上 1.3 亿个光感受器，到初级视皮层 V1 简单的方位选择性细胞，再到 V5 对运动方向的精确编码。这条通路遵循一条基本设计原则：层级聚合。每往上一步，神经元整合的视野范围更大、特征更抽象。

视网膜与光感受器：视觉通路的起点

人眼视网膜上有两类光感受器（photoreceptor）。它们在功能上的分工是视觉信息处理的第一道"分拣"。

视杆细胞 vs 视锥细胞

特征	视杆细胞 (Rods)	视锥细胞 (Cones)
数量	约 9200 万	约 600-700 万
分布	视网膜周边	中央凹 (fovea) 密集
敏感度	高（弱光下工作）	低（强光下工作）
颜色	无色觉	三种锥体，分别对长/中/短波长敏感（L/M/S）
功能	暗视觉 (scotopic)	明视觉、色觉、精细视觉

为什么暗处看不见颜色？只有视锥细胞具有色觉能力。夜晚视锥细胞失去响应，仅剩视杆细胞工作，因此我们只能看到灰度。这是「视网膜上的第一层分拣」——亮度信息与颜色信息从源头就由不同细胞编码。

光感受器并不直接连到大脑。从感光到信号送出视网膜要经过中间神经元的两层处理：

双极细胞 (Bipolar cells)：把光感受器的信号前向传给神经节细胞。
水平细胞 (Horizontal) 与无长突细胞 (Amacrine)：在同一层内做侧向 (lateral) 信号整合，正是后面要讲的「侧抑制」的细胞学基础。
神经节细胞 (Ganglion cells)：视网膜的输出细胞，其轴突汇聚成视神经 (optic nerve)。

简化信号流：从视网膜到初级视皮层

从信号流的角度，视觉信息走过的关键节点可以压缩为一条七站链：

graph TD
  A["光感受器
Rods and Cones"] --> B["双极细胞
Bipolar"]
  B --> C["神经节细胞
Ganglion"]
  C --> D["视交叉
Optic Chiasm"]
  D --> E["外侧膝状体
LGN"]
  E --> F["V1 初级视皮层
Primary Visual Cortex"]
  F --> G["高级视觉区
V2 V3 V4 V5"]
  G --> H["物体识别
Object Recognition"]

  A -- "光转电" --> B
  B -- "中心-周围
拮抗结构" --> C
  C -- "动作电位
沿视神经" --> D
  D -- "左右视野
分离重组" --> E
  E -- "中继与门控" --> F
  F -- "方位/眼优势
柱状组织" --> G
  G -- "功能特化" --> H

  classDef node fill:#6366f126,stroke:#6366f1,color:#e8e8f0;
  classDef endnode fill:#ec48992e,stroke:#ec4899,color:#fce7f3;
  class A,B,C,D,E,F,G node;
  class H endnode;

其中两个节点需要特别说明：

视交叉 (Optic Chiasm)

来自鼻侧视网膜的纤维在视交叉处交叉到对侧，来自颞侧视网膜的纤维留在同侧。结果是：左视野的信息由右半球处理，右视野的信息由左半球处理。这是「两个半脑看到不同视野」的解剖学基础。

外侧膝状体 (LGN)

LGN 是丘脑的一个中继核团，接收来自视网膜的输入并投射到 V1。LGN 的精确功能至今不完全清楚，但已知它有强大的皮层反馈连接——V1 反过来调控 LGN，这意味着 LGN 不是简单的"水管"，而是主动的门控与调制结构。

感受野 (Receptive Field)：神经元的"窗口"

理解视觉通路的关键概念是感受野。Hubel 与 Wiesel 因对猫和猴 V1 神经元的系统研究获得 1981 年诺贝尔生理学或医学奖，其核心发现就是层级式感受野。

感受野 (Receptive Field, RF)

能引起某个神经元发放的视网膜区域。对于视网膜神经节细胞，RF 是视网膜上的一片小区域；对于 V1 的简单细胞，RF 是视野中的一小块带方向性的区域；对于 V5/MT 的细胞，RF 可能大到包含整个视野区域。

RF 的"逐级放大"是层级组织的关键。V1 细胞的 RF 远小于颞叶面孔细胞；高层的 RF 总是由低层 RF 聚合而来。这就是 Marr 算法层中「特征检测器的层级组合」。

视觉通路上的几类典型 RF 单元：

ON-OFF 细胞 (中心-周围拮抗)

视网膜神经节细胞的最常见类型。RF 由两部分组成：

中心 (center)：对光照起兴奋性反应（ON 区）。
周边 (surround)：对光照起抑制性反应（OFF 区），反之亦然（OFF-ON 细胞）。

这类细胞实际上是一个边缘/亮度差检测器——只对中心与周边的亮度差敏感，对均匀光不响应。这是后面「侧抑制」的细胞学基础。

方位选择性细胞 (Orientation-selective cells / Simple cells)

Hubel 与 Wiesel 在 V1 发现：

V1 神经元对视野中具有特定方位的明亮条形 (bar) 反应最强。
对方位偏离 $$90°$$ 的刺激几乎无反应。
不同细胞偏好不同方位，覆盖 $$0°-180°$$ 全范围。

关键洞见：这些细胞可以从 on-off 细胞通过汇聚 (convergence) 构造——把若干个 on-off 中心排列成一条直线，所有这些中心的输入汇聚到 V1 简单细胞。这正是 Marr 算法的具体实现：把低层特征组合成高层特征。

把 Hubel-Wiesel 的发现抽成一句话：高级特征 = 低级特征的空间聚合。这个原则贯穿整个视觉通路：

V1 简单细胞 = 一排 ON-OFF 中心的汇聚
V1 复杂细胞 = 多个简单细胞（覆盖位置变化）的汇聚
V5/MT 方向细胞 = 多个复杂细胞（覆盖运动速度）的汇聚
颞下皮层 (IT) 面孔细胞 = 多个部件检测器（眼/鼻/嘴）的汇聚

侧抑制 (Lateral Inhibition)：边缘增强的算法

侧抑制是神经科学里最简洁、最可视化的算法之一。Mach 在 19 世纪描述的现象 (Mach Bands) 是它的经典例证。

例 · Mach Bands 与侧抑制

把六个灰度递增的矩形条并排放在一起——尽管每个矩形内部的灰度是均匀的，你却会看到：每个矩形的右侧显得比左侧更亮，左侧显得更暗。这种边缘错觉被称为 Mach Bands。

原因：在中心-周围拮抗的 ON-OFF 细胞中，处于"暗-亮"边界处的细胞，其 ON 中心被亮侧激活而 OFF 周边被暗侧激活——两侧都得到最大刺激，反应远高于只被亮侧均匀照射的内部细胞。这导致边界处的神经反应比内部更强烈，主观亮度被"夸大"。

侧抑制的数学表达

对神经元 $$i$$ 的输出 $$r_i$$ ，侧抑制形式化为从邻域神经元的减法：

r_i = \sigma\left( \sum_{j \in \text{feed-forward}} w_{ij} x_j - \sum_{k \in \text{neighbors}} \alpha_{ik} r_k \right)

其中 $$r_k$$ 是空间上相邻神经元的发放， $\alpha_{ik} > 0$ 是抑制权重。这个减法项就是侧抑制。Lateral inhibition 让高发放的神经元压制邻居，从而放大局部对比、抑制冗余的均匀信号。

侧抑制的三大功能

边缘增强：在亮度阶跃处放大对比，让边界更易被检测（Mach Bands）。
节省编码资源：均匀光不激活细胞，把动态范围留给真正变化的区域。
减少冗余：相邻细胞对同一信号做去相关，是无监督特征学习的雏形（与 ICA、Sparse Coding 思想一致）。

功能特化 (Functional Specialization)

从 V1 往上，视觉皮层分裂成多个并行通路。1982 年 Ungerleider 与 Mishkin 提出著名的腹背流 (ventral-dorsal stream) 假说，把高级视觉分成"What"和"Where"两条通路：

腹侧流 (Ventral Stream) vs 背侧流 (Dorsal Stream)

腹侧流 (V1→V2→V4→IT)：从枕叶绕到颞叶腹侧。回答「What is it?」——物体识别、面孔、文字。
背侧流 (V1→V2→V3→V5/MT→顶叶)：从枕叶向上到顶叶。回答「Where is it? How to act?」——空间位置、运动、动作引导。

在每个流内部又有更细的特化。最有说服力的证据来自脑损伤 (lesion) 研究：

功能特化损伤案例

损伤区	症状	英文术语	现象
V4	全色盲	Achromatopsia	失去所有颜色知觉，世界变为灰度；连对颜色的记忆也消失。
V5 / MT	运动失认	Akinetopsia	看见运动物体如同定格画面，"如同一串静照"。
梭状回面孔区 (FFA)	面孔失认	Prosopagnosia	认不出熟人的脸，但能通过声音/步态识别。
外纹状视觉区 (LOC)	视觉物体失认	Visual object agnosia	看见物体但说不出名字或用途。

为什么损伤研究最有说服力？它给出因果证据（损伤→功能丧失），而 fMRI 只给相关。V4 损伤患者的世界真的失去颜色，证明了"颜色"对应一个特化的神经基础，而不是均匀分布的神经活动。

感觉绑定问题 (Sensory Binding Problem)

功能特化引出了一个深刻的理论难题：

「如果空间上分离的不同脑区分别负责形状、颜色、运动、方向等属性……那么大脑如何把这些属性『绑定』在一起，形成对一个物体的统一感知？」

—— 感觉绑定问题 (Sensory Binding Problem) 的标准表述

绑定问题 (Binding Problem)

当分立的神经模块独立处理一个物体的不同属性（颜色、形状、运动、深度），大脑如何知道哪些属性属于同一物体，从而把它们"装配"成一个统一的感知？

这个问题的关键在于：信息被分散地处理了，但感知是统一的。"装配"过程在哪里、以什么机制发生，至今没有统一答案。

三种主要假说：

同步振荡假说 (Binding by synchrony)：属于同一物体的神经元在 $40\,$ Hz 附近同步发放，跨区域振荡是"装配标签"（Singer、Engel 等的猫 V1 实验）。
位置假说 (Binding by location)：因为 V1 的视网膜拓扑映射 (retinotopic map)，空间位置天然绑定——同一位置激活的多种特征被自动归到一起。
注意假说 (Feature Integration Theory, FIT)：Treisman 提出，绑定需要空间注意把不同特征"粘合"到主图 (master map) 上。下一章「注意力」会详细讨论。

本章关键结论 (Part I)

视觉通路是层级聚合的：低层特征 → 中层组合 → 高层抽象。
每个神经元都有感受野，RF 沿层级扩大，特征选择性增加。
侧抑制在算法的层面对比度增强、减少冗余，是边缘检测的神经实现。
皮层功能特化：V4→颜色, V5→运动, FFA→面孔。损伤研究给出因果证据。
功能特化导致绑定问题——这正是从「分散处理」到「统一感知」的认知-神经鸿沟。

PDFV1 感受野：ON-OFF 细胞与方位选择性p.15

正在渲染 PDF 第 15 页…

V1 感受野：ON-OFF 细胞与方位选择性（PDF 第 15 页） · 打开原文

PDFMach Bands 与侧抑制p.24

pdf/认知科学/Visual Cognition 1.pdf · p.24

打开原文

PDFV4 / V5 损伤案例与功能特化p.27

pdf/认知科学/Visual Cognition 1.pdf · p.27

打开原文

Part II · 心理表象

Mental Imagery：表象是「图」还是「句子」

第二部分从「看见」跨越到「想象」。当你闭上眼睛想象一只猫在你家客厅里跑，脑海里的那只猫——它是「图」还是「句子」？这个问题曾经让认知科学分裂成两个阵营。

为什么心理表象的研究困难

心理表象 (mental imagery) 在 20 世纪上半叶是认知心理学的禁区。行为主义把不能直接观察的内部状态排除在科学之外——你无法称量一只想象的猫，无法用尺子量一段想象的路程。直到 1960 年代认知心理学革命，内部表征 (internal representations) 重新成为合法研究对象，心理表象才得以"复活"。

心理表象 (Mental Imagery)

Kosslyn & Thompson (2003) 给出被广泛引用的定义：

「视觉心理表象出现在视觉短时记忆 (visual STM) 表征处于激活状态、但刺激并未实际呈现时；它伴随着一种『用心灵之眼看见』的体验。」

简言之：没有光子进入眼睛，但视觉皮层仍处于"看到"的状态。

模拟 vs 命题之争

心理表象的表示格式是什么？这是 1970-80 年代认知心理学最激烈的争论之一。争论双方提出了截然不同的表示假设。

两种对立的表示假说

假说	表示形式	类比	主要支持者
模拟 (Analog / Depictive)	表示的结构与被表示物的空间结构同构（图）	地图、照片、屏幕像素	Kosslyn、Shepard
命题 (Propositional)	用类语言符号描述物体与关系，无空间结构（句子）	数据库记录、关系表	Pylyshyn

「黑箱里有两种可能」。当你说"红色的方块在蓝色的方块上"，你的大脑里可能真的有一张"图"（模拟表示）——上下方位被保留为空间结构；也可能是一行符号 on(red-square, blue-square)（命题表示）——方位被编码为符号关系，与空间无关。

支持模拟表示的三大经典证据

三类实验证据强有力地支持了"心理表象是模拟的"假说：

证据 1 · 心理旋转 (Mental Rotation, Shepard & Cooper 1973)

让被试判断两个图形（一个是另一个旋转后的版本）是否相同。如果心理表象是模拟的，被试应该在"心里"把第一个图形旋转到与第二个一致，再比较。

预测：反应时 (RT) 与两个图形之间的旋转角度呈线性正相关。角度越大，旋转越费时。
结果：RT = $a + b \cdot \theta$ 在 $$0°-180°$$ 范围内拟合极佳。

线性关系是关键：命题表示不会预测"30° 比 60° 慢一半"——句子没有角度概念。如果表象是句子，反应时应该与角度无关。

RT(\theta) = a + b \cdot \theta, \quad b \approx 2\text{-}4\,\text{ms/deg}

例 · 心理旋转实验范式

屏幕左侧出现一个图形（如字母 F），右侧出现另一个图形（如旋转了 $$90°$$ 的 F）。被试按键判断"相同 / 不同"。系统变化旋转角度，记录 RT。结果如图：

角度 $$0°$$ ：RT 最小（无需旋转即可比较）。
角度 $$180°$$ ：RT 最大（要旋转半圈）。
中间角度：RT 随角度线性增长，斜率约 $$2$$ ms/度。

这种线性增长是模拟旋转最直接的证据。

证据 2 · 扫描实验 (Image Scanning, Kosslyn 1978)

让被试记忆一张地图（如一幅小岛地图，岛上有树、池塘等标志物）。然后问"从树到池塘"需要"扫视"多远。结果：

被试报告的"扫视时间"与地图上树到池塘的实际距离正相关。
距离远的物体比距离近的物体需要更长的"扫描"时间。

这意味着表象保留了度量空间信息 (metric spatial information)——命题表示不会保留这些。

证据 3 · 脑成像证据 (fMRI, Kosslyn et al. 1999)

用 fMRI 直接观察被试在视觉想象时的脑活动：

早期视觉皮层 (V1) 在心理表象任务中显著激活。
激活的强度与表象的"大小"相关——想象"一只鹰掠过视野"时 V1 的活动模式与实际看到类似。

这个发现直接挑战了命题假说——如果表象是"句子"，视觉皮层不应被激活。表象不仅"看起来像"视觉，它就是视觉皮层的部分激活。

认知地图的扭曲：表象不是「完美复制」

但表象不是视觉的"完美复刻"。一个重要现象是认知地图 (cognitive map) 中的系统性扭曲——人们在头脑中持有的地理空间表征，受到概念知识的强烈影响。

例 · Reno vs San Diego：哪个更靠东？

看地图就知道，San Diego 在南加州（西海岸），Reno 在内华达州（明显更东）。但许多人凭直觉回答"Reno 更东"——因为他们应用了概念知识：

内华达州 (Nevada) 在加利福尼亚州 (California) 的东边。
Reno 在内华达，San Diego 在加利福尼亚。
所以 Reno 应该比 San Diego 更东。

这种推理在州尺度上是对的，但在城市尺度上产生了系统性错误——它揭示了层级化概念组织 (hierarchical conceptual organization) 对心理表象的扭曲。

表象 = 视觉 + 概念。心理表象既不是纯粹的"图"，也不是纯粹的"句子"。它有空间结构（来自视觉系统），但又受到概念知识（语义、范畴、世界知识）的调制。与视觉图像最重要的区别是：心理表象很难被「重读」——一旦你按某种方式"看见"了模糊图形（如 Necker 立方体），你很难再"看见"另一种解释；视觉图像可以，睁眼重看即可。

表象与感知的对比：分辨率与错觉

分辨率缩放 (Finke & Kosslyn 1980)

让被试判断视野中两个点是否能被区分，定义视野分辨率 (field of resolution)。结果：

实际观看时与心理想象时的分辨率模式高度相似。
两种情况下，水平 vs 垂直方向有类似的"分辨率各向异性"（中心比周边分辨率高）。

这说明心理表象与视觉感知共享一套"显示设备"——它们使用相同的低层视觉资源。

但表象和感知也有不同：

表象中物体的大小受注意力影响：蜜蜂旁的兔子没有大象旁的兔子"细节丰富"（Russell's 兔子头）。
表象受错觉影响（如 Ponzo 错觉），但效应比真实视觉弱。
表象不易重读，如 Necker 立方体（一旦按一种方式"看见"了，另一种解释很难想象出来）。

本章关键结论 (Part II)

心理表象不是纯命题表示——三类经典实验（心理旋转、扫描、fMRI）都支持模拟表征。
表象复用视觉皮层：想象一只猫会部分激活 V1 等早期视觉区。
但表象≠视觉——它受到概念知识调制（认知地图扭曲），且难以重读。
表象是准图画 (quasi-pictorial) 但非纯空间：模拟的，但有概念介入。

PDF心理表象的定义与行为主义争议p.3

pdf/认知科学/Visual Cognition 2.pdf · p.3

打开原文

PDF模拟 vs 命题表示对比p.12

pdf/认知科学/Visual Cognition 2.pdf · p.12

打开原文

PDF心理旋转实验：角度与反应时的线性关系p.22

正在渲染 PDF 第 22 页…

心理旋转实验：角度与反应时的线性关系（PDF 第 22 页） · 打开原文

PDF认知地图扭曲与层次化概念组织p.35

pdf/认知科学/Visual Cognition 2.pdf · p.35

打开原文

Part III · 物体识别

我们如何把视网膜图像变成「一只猫」

第三部分解决认知科学中"最难的问题之一"：物体识别 (object recognition)。我们能在 $$100$$ ms 内从一瞥中认出物体——"这是一只猫"——而不论它的视角、大小、颜色、姿态、光照如何变化。这种不变性 (invariance) 至今是计算机视觉的核心难题。

为什么物体识别难：视角与形变的不变性

同一个物体在视网膜上的成像可以差异巨大：

旋转、缩放、位移 (translation, rotation, scale)
光照变化、遮挡、变形
同类物体的"例间变化" (intra-class variation)：猫和猫的差异

认知系统必须找到一个"与具体图像无关"的物体本质。四大经典识别理论以不同方式回答"什么是不变的"：

四大物体识别理论概览

理论	不变量	核心假设	主要问题
模板匹配 (Template)	原样匹配	把输入与存储的模板逐像素比较	无法处理形变；模板数爆炸
特征理论 (Feature)	特征集合	物体 = 特征袋 (bag of features)	特征相同但物体不同 (结构信息丢失)
成分识别 (RBC / Geons)	几何成分 + 空间关系	物体 = 24 个 geon 的组合	难以处理颜色/纹理；复杂自然图像难分
构型模型 (Configural / Exemplar)	与原型的距离	存储类别原型，按距离判别	无法解释部件关系；面孔倒置效应

理论 1 · 模板匹配 (Template Matching)

最朴素的想法：识别 = 比对。预先存储一组"模板"（标准图案），把输入和每个模板比较，匹配最好的就识别为该模板代表的物体。

类比：把当前图案放在一组"印章"上，看哪个印章完全吻合——这是指纹识别、字符识别 (OCR) 的核心思路。

问题 1：变换不变性。如果物体被旋转、缩放、平移，模板可能不直接匹配。解决方案：先用一组变换 (translation, rotation, scale) 把输入与模板"对齐"，再比较。但搜索空间巨大（3 个变换参数 × 巨大范围）。

问题 2：模板数量爆炸。要识别不同大小、方向、颜色的"M"，要存储指数级数量的模板。

问题 3：忽略直觉。一个"M" 在视觉上是一个 M，不管你把它放大、涂红、还是倾斜；模板匹配无法捕捉"本质相同"这件事。

模板匹配的适用场景

模板匹配在约束环境下表现优异：

指纹识别：指纹图案基本不变形、类内差异小。
工业检测：待检测物体在固定位置/姿态出现。
字符识别 (印刷体)：字体、大小已知。

但对一般物体识别（如自然场景中的猫）远远不够。

理论 2 · 特征理论 (Feature Theories)

Selim Selfridge 1959 年的 "Pandemonium" 模型是特征理论的早期实现。核心思想：

特征匹配模型 (Feature-matching Models)

把每个物体分解为一组特征 (features)。识别时搜索这些特征的存在——只要特征集合对得上，就识别为该物体。

特征理论很好地契合神经科学的并行分布处理 (PDP) 思想：每个特征检测器都是一个独立的"恶魔" (demon)，并行工作；物体识别是这些恶魔的集体投票。

优势：

部分遮挡时仍可识别（局部特征存在即可）。
特征检测器可以独立工作，支持并行处理。
神经上有对应物——Hubel-Wiesel 的"条形检测器"就是特征检测器的神经实现。

致命问题：

特征相同 ≠ 物体相同。两个物体可能由完全相同的特征组成，只是排列不同。如下面 (a) 和 (b) 都是「三个垂直条 + 三个水平条」，但一个是字母"E"，另一个是反"E"。特征理论无法区分这种结构差异——这是「结构信息丢失 (loss of structural information)」问题。

这个缺陷直接催生了下一个理论：结构理论 (structural theories)，核心是「物体 = 特征 + 特征间关系」。

理论 3 · 成分识别 / RBC (Biederman 1987)

Irving Biederman 在 1987 年提出成分识别理论 (Recognition-By-Components, RBC)，把结构信息显式纳入模型。

RBC / Geon 理论

任何三维物体都可以被分解为大约 24 个基本几何体 (geons, geometric ions) 的组合。识别 = 识别 geon + 识别 geon 间的空间关系。

类比：英语有 26 个字母，几十万单词都由这些字母组合而成；视觉有 24 个 geon，所有物体都由这些 geon 组合而成。

为什么是这 24 个 geon？它们的选择基于一个关键概念：非偶然属性 (non-accidental properties, NAPs)。

非偶然属性 (Non-Accidental Properties, NAPs)

在大多数视角下，物体部件之间呈现的关系（平行、共线、对称、连续）是视角无关的——从任何视角看，"两个部件共线"几乎都意味着它们在 3D 中是共线的（除非是罕见的"偶然视角"）。

基于 NAPs 划分的 geon 从大多数视角都能被正确识别，这被称为视角不变性 (viewpoint invariance)。

graph TD
  A["3D 物体"] --> B["分线 (line drawing)"]
  B --> C{"识别 geons
(24 个几何体)"}
  C --> D["Geon 1: 圆柱"]
  C --> E["Geon 2: 圆锥"]
  C --> F["Geon 3: 立方块"]
  C --> G["..."]
  D --> H["空间关系 (NAPs)"]
  E --> H
  F --> H
  G --> H
  H --> I["结构描述
Structural Description"]
  I --> J["物体识别
Object Recognition"]

  classDef node fill:#6366f11f,stroke:#6366f1,color:#e8e8f0;
  classDef endnode fill:#22c55e2e,stroke:#22c55e,color:#dcfce7;
  class A,B,C,D,E,F,G,H,I node;
  class J endnode;

RBC 的预测：

当物体的 geon 可以被恢复时，识别较快；
破坏顶点 (vertices)（连接两个 geon 的关键点）比简单删除线条更影响识别——因为顶点是 geon 划分的依据。

RBC 的局限：

结构描述不够：要区分两把不同的椅子，仅靠 geon 组合不够——需要尺寸、比例、纹理等度量信息 (metric information)。
难以从真实图像提取 geon：分线提取、顶点检测在噪声图像上很困难。
忽略颜色/纹理：许多物体（橘子 vs 葡萄柚）靠颜色和纹理区分，geon 一样。

理论 4 · 构型模型 (Configural / Exemplar Models)

构型模型把焦点从"抽象结构"转向"具体例子的分布"。

构型模型 / 原型说

每个类别存储一个原型 (prototype)——类别中所有例子的"平均"。识别 = 把当前输入与原型比较，看距离多远。

这能解释 RBC 难以解释的例间变异 (intra-class variability)：两只不同的猫由"猫原型"的两个不同位置表示，识别时根据距离判别。

最有名的预测：

漫画效应 (Caricature Effect)

对脸做漫画化 (caricature)处理——夸大这张脸相对平均脸 (prototype) 的特征差异——人脸识别率不下降，甚至上升。

这是构型模型的直接证据：识别看的是"相对原型的偏离方向与幅度"，漫画化增大了这个幅度，反而更易识别。

构型效应在倒置时消失 (Face Inversion Effect)：

正立时，识别一张脸更多依赖整体构型 (configural processing)。
倒置时，构型处理被破坏，被试退回到局部部件分析，识别能力急剧下降。

这是构型模型独有的预测——RBC 不会预测倒置效应（它对正立/倒立一视同仁）。

词优效应与交互激活模型 (IA Model)

物体识别中上下文 (context) 的影响是另一个关键问题。最经典的实验是词优效应 (Word Superiority Effect)。

词优效应 (Word Superiority Effect)

识别一个孤立字母比识别一个嵌在真词中的同一字母更难。例如：

呈现 K 单独：识别率 80%
呈现 WORK 中的 K：识别率 95%
呈现 TWZK 中的 K：识别率与孤立 K 接近

关键：词优效应不只是反应偏向 (response bias)——敏感度 (sensitivity, d') 也提高了，说明词汇知识真的影响了字母识别。

这种"高层影响低层"的现象不能用纯 bottom-up 解释。McClelland & Rumelhart 1981 年提出交互激活模型 (Interactive Activation, IA Model)，把视觉识别形式化为三层神经网络：

graph TD
  L0["特征层 (Feature)
笔画/线段/角点"]
  L1["字母层 (Letter)
A B C ... Z"]
  L2["词层 (Word)
CATS WORK DARK ..."]
  L0 -- "Bottom-up
特征激活字母" --> L1
  L1 -- "Bottom-up
字母激活词" --> L2
  L2 -. "Top-down
词激活字母" .-> L1
  L0 -. "Top-down
词激活特征" .-> L0
  L1 -- "侧抑制
字母之间互抑" --> L1
  L2 -- "侧抑制
词之间互抑" --> L2

  classDef feature fill:#22c55e26,stroke:#22c55e,color:#dcfce7;
  classDef letter fill:#6366f126,stroke:#6366f1,color:#e8e8f0;
  classDef word fill:#ec489926,stroke:#ec4899,color:#fce7f3;
  class L0 feature;
  class L1 letter;
  class L2 word;

IA 模型的工作机制

三层：特征 → 字母 → 词。每层有多个节点，每个节点有一个激活值。
两类连接：层间有兴奋性和抑制性连接。
同层抑制 (lateral inhibition)：同一层的节点互相竞争。
双向流动：激活同时从下到上 (bottom-up) 和从上到下 (top-down) 流动。

为什么词优效应来自 top-down？当呈现 WORK 时：

从特征来的 bottom-up 信号同时激活 W、O、R、K 等多个字母（部分激活）。
词层中 WORK 收到来自 W、O、R、K 的累积激活，开始变强。
词 WORK 激活后，通过 top-down 连接回送激活到字母 W、O、R、K，让它们的激活值上升。
字母 K 因此比"孤立"情况下更易被识别——这就是词优效应。

在 TWZK 这种非词里，词层没有对应的节点被激活，top-down 信号不存在，K 不会得到增强。

脑解码：从脑活动中「读」出看到的内容

21 世纪视觉认知的另一个重大突破是用 fMRI 直接从脑活动中读出你正在看什么。

Haxby et al. 2001 · 96% 准确率的多体素模式分类

Haxby 等人用多体素模式分析 (MVPA, multi-voxel pattern analysis) 在腹侧颞叶皮层 (VTC) 解码被试看到的物体类别：

呈现 8 类物体：面孔、猫、剪刀、椅子、房子、瓶子、鞋子、随机图。
训练分类器（神经网络/SVM）从 VTC 的 fMRI 模式中预测类别。
在新图像上达到 96% 准确率。

关键发现：不同类别的物体在 VTC 呈现分布且重叠 (distributed and overlapping) 的表征——没有"面孔细胞"或"猫细胞"这样的局部编码，而是整片皮层共同编码，每个体素贡献部分信息。

Miyawaki et al. 2008 · 从 fMRI 重建视觉图像

Miyawaki 等人更激进——他们试图重建被试正在看的简单图案：

呈现 $10 \times 10$ 的二值棋盘格 (100 比特)。
用多尺度 fMRI 信号 + 贝叶斯先验 (natural image statistics) 重建图像。
虽然重建分辨率不高，但呈现了从脑活动到像素级的反向映射可行性。

这个结果打开了"视觉读心术 (visual mind reading)"的大门，也引发了对神经隐私的伦理讨论。

为什么"分布且重叠"很重要？它推翻了"祖母细胞 (grandmother cell)"假说——没有一个神经元只对"我祖母"反应。视觉表征是高度分布的，每个体素参与多类物体的编码。这种分布式编码 (distributed coding) 也是现代深度学习的特征——一个 CNN 通道参与多类物体的识别。

本章关键结论 (Part III)

物体识别没有"银弹"——模板匹配适合约束场景，特征理论处理形变，RBC 解决结构信息，构型模型处理例间变异。
词优效应证明高层知识影响低层识别——IA 模型用双向激活流（bottom-up + top-down + 侧抑制）解释。
脑解码（Haxby 96%, Miyawaki 重建）显示视觉表征是分布式的，从脑活动可以反推你正在看什么。
四大理论并不互斥——现代观点认为人脑使用它们的某种组合：早期快速特征检测 → 中层部件组装 → 高层构型与上下文调制。

PDF物体识别四大理论总览p.2

pdf/认知科学/Visual Cognition 3.pdf · p.2

打开原文

PDFRBC 理论：24 个 Geon 与视角不变性p.18

正在渲染 PDF 第 18 页…

RBC 理论：24 个 Geon 与视角不变性（PDF 第 18 页） · 打开原文

PDF交互激活模型（IA Model）网络结构p.27

正在渲染 PDF 第 27 页…

交互激活模型（IA Model）网络结构（PDF 第 27 页） · 打开原文

PDFHaxby 96% 分类与 Miyawaki 重建p.37

pdf/认知科学/Visual Cognition 3.pdf · p.37

打开原文

复习速查 · 视觉认知核心要点

视觉通路（一句话）：光感受器 → 双极 → 神经节 → 视交叉 → LGN → V1 → V2-V5（腹侧 What 流 / 背侧 Where 流）。

感受野（关键概念）：

ON-OFF 细胞 = 边缘检测器，中心-周围拮抗。
简单细胞 = 一排 ON-OFF 中心，对特定方位的条形反应强。
复杂细胞 = 多个简单细胞的汇聚，对位置变化不敏感。
原则：高层 RF = 低层 RF 的空间聚合。

侧抑制（一句话）：神经元的活动压制邻居的响应 → 增强边缘对比（Mach Bands）、减少冗余。

功能特化（速记）：V1 边缘/方位 · V2 主观轮廓 · V3 复杂运动 · V4 颜色 · V5/MT 运动方向 · FFA 面孔。

绑定问题：分立模块独立处理后如何形成统一感知？假说：同步振荡、位置不变、注意绑定 (FIT)。

心理表象（核心）：模拟表征而非纯命题，证据来自心理旋转 (RT 与角度线性) / 扫描实验 / fMRI。但表象≠视觉，受概念调制（认知地图扭曲）。

物体识别四大理论：

模板匹配：原样比对，简单但僵硬。
特征理论：特征袋，丢失结构。
RBC / Geons：24 个几何体 + 空间关系，处理视角不变性。
构型模型：与原型的距离 + 漫画效应 + 倒置效应。

词优效应与 IA 模型：词比孤立字母更易识别 → top-down 词 → 字母的反馈。

脑解码里程碑：Haxby 2001 (96% 8 类分类) + Miyawaki 2008 (fMRI 重建视觉图案)。

参考来源

Hubel, D. H., & Wiesel, T. N. (1962). Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. Journal of Physiology, 160(1), 106-154.
Mach, E. (1865). Über die Wirkung der räumlichen Vertheilung des Lichtreizes auf die Netzhaut. Sitzungsberichte der kaiserlichen Akademie der Wissenschaften.
Ungerleider, L. G., & Mishkin, M. (1982). Two cortical visual systems. In Analysis of Visual Behavior (pp. 549-586). MIT Press.
Zeki, S. (1990). The motion vision area MT/V5 in man. Philosophical Transactions of the Royal Society B, 335(1273), 267-275.
Treisman, A. M., & Gelade, G. (1980). A feature-integration theory of attention. Cognitive Psychology, 12(1), 97-136.
Kosslyn, S. M., & Thompson, W. L. (2003). When is early visual cortex activated during visual mental imagery? Psychological Bulletin, 129(5), 723-746.
Shepard, R. N., & Cooper, L. A. (1982). Mental images and their transformations. MIT Press.
Finke, R. A., & Kosslyn, S. M. (1980). Mental imagery acuity in the peripheral visual field. Journal of Experimental Psychology: Human Perception and Performance, 6(1), 126-139.
Pylyshyn, Z. W. (2002). Mental imagery: In search of a theory. Behavioral and Brain Sciences, 25(2), 157-182.
Biederman, I. (1987). Recognition-by-components: A theory of human image understanding. Psychological Review, 94(2), 115-147.
McClelland, J. L., & Rumelhart, D. E. (1981). An interactive activation model of context effects in letter perception: Part 1. Psychological Review, 88(5), 375-407.
Haxby, J. V., et al. (2001). Distributed and overlapping representations of faces and objects in ventral temporal cortex. Science, 293(5539), 2425-2430.
Miyawaki, Y., et al. (2008). Reconstructing visual experiences from brain activity evoked by visual patterns. Neuron, 60(5), 869-876.
Solso, R. L., MacLin, M. K., & MacLin, O. H. (2005). Cognitive Psychology (8th ed.). Pearson. (Chapter 4: Visual Perception & Imagery)

上一章课程导论与类脑计算枢纽页认知计算科学下一章注意力