ESC
输入关键词搜索文章
目录

视觉认知

Visual Cognition · 感知、表象与识别
从视网膜到物体识别的认知之旅
3核心主题
6视觉区
4识别理论
96%脑解码精度
Part 0 · 学习目标
视觉认知研究什么

视觉认知是认知科学中历史最悠久、证据链最完整的子领域。从 Hubel 与 Wiesel 在猫的 V1 皮层插入微电极开始,到今天用 fMRI 重建人脑正在观看的图像,视觉研究始终走在认知神经科学方法论的最前沿。本讲沿着「光信号 → 神经表征 → 主观体验 → 物体识别」的完整链路展开。

学完本讲你应该能够回答:光子进入眼睛后发生了什么?为什么需要侧抑制?为什么不同脑区负责不同的视觉属性?心理表象是「图」还是「句子」?物体识别为什么没有"模板"那么简单?交互激活模型如何解释词优效应?脑成像如何"读"出你正在看什么?

前置知识回顾

  • 神经元的激活与发放:动作电位、感受野、兴奋-抑制平衡。本讲大量使用这些概念。
  • 信息论基础:通道容量、瓶颈假设。本讲在视觉通路中再次出现。
  • 实验心理学范式:反应时(RT)方法、眼动追踪、单细胞记录。本讲在心理旋转、词优效应部分使用。
  • 类脑计算导论:Marr 三层分析、神经网络的层级表征。本讲是这个框架的第一次具体应用。
PDFVisual Cognition 1 PPT 首页p.1

pdf/认知科学/Visual Cognition 1.pdf · p.1

打开原文

Part I · 视觉感知基础
从光感受器到 V5:视觉通路与层级组织

第一部分解决一个看似简单的问题:当你睁开眼睛看见一个红色的苹果时,信号从光子被吸收到大脑产生「红色、圆形、苹果」的感知,中间经历了什么?神经科学半个多世纪的研究已经基本厘清这条通路——从视网膜上 1.3 亿个光感受器,到初级视皮层 V1 简单的方位选择性细胞,再到 V5 对运动方向的精确编码。这条通路遵循一条基本设计原则:层级聚合。每往上一步,神经元整合的视野范围更大、特征更抽象。

视网膜与光感受器:视觉通路的起点

人眼视网膜上有两类光感受器(photoreceptor)。它们在功能上的分工是视觉信息处理的第一道"分拣"。

视杆细胞 vs 视锥细胞

特征视杆细胞 (Rods)视锥细胞 (Cones)
数量约 9200 万约 600-700 万
分布视网膜周边中央凹 (fovea) 密集
敏感度高(弱光下工作)低(强光下工作)
颜色无色觉三种锥体,分别对长/中/短波长敏感(L/M/S)
功能暗视觉 (scotopic)明视觉、色觉、精细视觉
为什么暗处看不见颜色?只有视锥细胞具有色觉能力。夜晚视锥细胞失去响应,仅剩视杆细胞工作,因此我们只能看到灰度。这是「视网膜上的第一层分拣」——亮度信息与颜色信息从源头就由不同细胞编码。

光感受器并不直接连到大脑。从感光到信号送出视网膜要经过中间神经元的两层处理:

  • 双极细胞 (Bipolar cells):把光感受器的信号前向传给神经节细胞。
  • 水平细胞 (Horizontal) 与无长突细胞 (Amacrine):在同一层内做侧向 (lateral) 信号整合,正是后面要讲的「侧抑制」的细胞学基础。
  • 神经节细胞 (Ganglion cells):视网膜的输出细胞,其轴突汇聚成视神经 (optic nerve)。

简化信号流:从视网膜到初级视皮层

从信号流的角度,视觉信息走过的关键节点可以压缩为一条七站链:

graph TD
  A["光感受器
Rods and Cones"] --> B["双极细胞
Bipolar"] B --> C["神经节细胞
Ganglion"] C --> D["视交叉
Optic Chiasm"] D --> E["外侧膝状体
LGN"] E --> F["V1 初级视皮层
Primary Visual Cortex"] F --> G["高级视觉区
V2 V3 V4 V5"] G --> H["物体识别
Object Recognition"] A -- "光转电" --> B B -- "中心-周围
拮抗结构" --> C C -- "动作电位
沿视神经" --> D D -- "左右视野
分离重组" --> E E -- "中继与门控" --> F F -- "方位/眼优势
柱状组织" --> G G -- "功能特化" --> H classDef node fill:#6366f126,stroke:#6366f1,color:#e8e8f0; classDef endnode fill:#ec48992e,stroke:#ec4899,color:#fce7f3; class A,B,C,D,E,F,G node; class H endnode;

其中两个节点需要特别说明:

视交叉 (Optic Chiasm)

来自鼻侧视网膜的纤维在视交叉处交叉到对侧,来自颞侧视网膜的纤维留在同侧。结果是:左视野的信息由右半球处理,右视野的信息由左半球处理。这是「两个半脑看到不同视野」的解剖学基础。

外侧膝状体 (LGN)

LGN 是丘脑的一个中继核团,接收来自视网膜的输入并投射到 V1。LGN 的精确功能至今不完全清楚,但已知它有强大的皮层反馈连接——V1 反过来调控 LGN,这意味着 LGN 不是简单的"水管",而是主动的门控与调制结构。

感受野 (Receptive Field):神经元的"窗口"

理解视觉通路的关键概念是感受野。Hubel 与 Wiesel 因对猫和猴 V1 神经元的系统研究获得 1981 年诺贝尔生理学或医学奖,其核心发现就是层级式感受野

感受野 (Receptive Field, RF)

能引起某个神经元发放的视网膜区域。对于视网膜神经节细胞,RF 是视网膜上的一片小区域;对于 V1 的简单细胞,RF 是视野中的一小块带方向性的区域;对于 V5/MT 的细胞,RF 可能大到包含整个视野区域。

RF 的"逐级放大"是层级组织的关键。V1 细胞的 RF 远小于颞叶面孔细胞;高层的 RF 总是由低层 RF 聚合而来。这就是 Marr 算法层中「特征检测器的层级组合」。

视觉通路上的几类典型 RF 单元:

ON-OFF 细胞 (中心-周围拮抗)

视网膜神经节细胞的最常见类型。RF 由两部分组成:

  • 中心 (center):对光照起兴奋性反应(ON 区)。
  • 周边 (surround):对光照起抑制性反应(OFF 区),反之亦然(OFF-ON 细胞)。

这类细胞实际上是一个边缘/亮度差检测器——只对中心与周边的亮度差敏感,对均匀光不响应。这是后面「侧抑制」的细胞学基础。

方位选择性细胞 (Orientation-selective cells / Simple cells)

Hubel 与 Wiesel 在 V1 发现:

  • V1 神经元对视野中具有特定方位的明亮条形 (bar) 反应最强。
  • 对方位偏离 $90°$ 的刺激几乎无反应。
  • 不同细胞偏好不同方位,覆盖 $0°-180°$ 全范围。

关键洞见:这些细胞可以从 on-off 细胞通过汇聚 (convergence) 构造——把若干个 on-off 中心排列成一条直线,所有这些中心的输入汇聚到 V1 简单细胞。这正是 Marr 算法的具体实现:把低层特征组合成高层特征。

把 Hubel-Wiesel 的发现抽成一句话:高级特征 = 低级特征的空间聚合。这个原则贯穿整个视觉通路:

  • V1 简单细胞 = 一排 ON-OFF 中心的汇聚
  • V1 复杂细胞 = 多个简单细胞(覆盖位置变化)的汇聚
  • V5/MT 方向细胞 = 多个复杂细胞(覆盖运动速度)的汇聚
  • 颞下皮层 (IT) 面孔细胞 = 多个部件检测器(眼/鼻/嘴)的汇聚

侧抑制 (Lateral Inhibition):边缘增强的算法

侧抑制是神经科学里最简洁、最可视化的算法之一。Mach 在 19 世纪描述的现象 (Mach Bands) 是它的经典例证。

例 · Mach Bands 与侧抑制

把六个灰度递增的矩形条并排放在一起——尽管每个矩形内部的灰度是均匀的,你却会看到:每个矩形的右侧显得比左侧更亮,左侧显得更暗。这种边缘错觉被称为 Mach Bands

原因:在中心-周围拮抗的 ON-OFF 细胞中,处于"暗-亮"边界处的细胞,其 ON 中心被亮侧激活而 OFF 周边被暗侧激活——两侧都得到最大刺激,反应远高于只被亮侧均匀照射的内部细胞。这导致边界处的神经反应比内部更强烈,主观亮度被"夸大"。

侧抑制的数学表达

对神经元 $i$ 的输出 $r_i$,侧抑制形式化为从邻域神经元的减法

$$r_i = \sigma\left( \sum_{j \in \text{feed-forward}} w_{ij} x_j - \sum_{k \in \text{neighbors}} \alpha_{ik} r_k \right)$$

其中 $r_k$ 是空间上相邻神经元的发放,$\alpha_{ik} > 0$ 是抑制权重。这个减法项就是侧抑制。Lateral inhibition 让高发放的神经元压制邻居,从而放大局部对比、抑制冗余的均匀信号。

侧抑制的三大功能

  • 边缘增强:在亮度阶跃处放大对比,让边界更易被检测(Mach Bands)。
  • 节省编码资源:均匀光不激活细胞,把动态范围留给真正变化的区域。
  • 减少冗余:相邻细胞对同一信号做去相关,是无监督特征学习的雏形(与 ICA、Sparse Coding 思想一致)。

功能特化 (Functional Specialization)

从 V1 往上,视觉皮层分裂成多个并行通路。1982 年 Ungerleider 与 Mishkin 提出著名的腹背流 (ventral-dorsal stream) 假说,把高级视觉分成"What"和"Where"两条通路:

腹侧流 (Ventral Stream) vs 背侧流 (Dorsal Stream)

  • 腹侧流 (V1→V2→V4→IT):从枕叶绕到颞叶腹侧。回答「What is it?」——物体识别、面孔、文字。
  • 背侧流 (V1→V2→V3→V5/MT→顶叶):从枕叶向上到顶叶。回答「Where is it? How to act?」——空间位置、运动、动作引导。

在每个流内部又有更细的特化。最有说服力的证据来自脑损伤 (lesion) 研究

功能特化损伤案例

损伤区症状英文术语现象
V4全色盲Achromatopsia失去所有颜色知觉,世界变为灰度;连对颜色的记忆也消失
V5 / MT运动失认Akinetopsia看见运动物体如同定格画面,"如同一串静照"。
梭状回面孔区 (FFA)面孔失认Prosopagnosia认不出熟人的脸,但能通过声音/步态识别。
外纹状视觉区 (LOC)视觉物体失认Visual object agnosia看见物体但说不出名字或用途。
为什么损伤研究最有说服力?它给出因果证据(损伤→功能丧失),而 fMRI 只给相关。V4 损伤患者的世界真的失去颜色,证明了"颜色"对应一个特化的神经基础,而不是均匀分布的神经活动。

感觉绑定问题 (Sensory Binding Problem)

功能特化引出了一个深刻的理论难题:

「如果空间上分离的不同脑区分别负责形状、颜色、运动、方向等属性……那么大脑如何把这些属性『绑定』在一起,形成对一个物体的统一感知?」

—— 感觉绑定问题 (Sensory Binding Problem) 的标准表述

绑定问题 (Binding Problem)

分立的神经模块独立处理一个物体的不同属性(颜色、形状、运动、深度),大脑如何知道哪些属性属于同一物体,从而把它们"装配"成一个统一的感知?

这个问题的关键在于:信息被分散地处理了,但感知是统一的。"装配"过程在哪里、以什么机制发生,至今没有统一答案。

三种主要假说:

  • 同步振荡假说 (Binding by synchrony):属于同一物体的神经元在 $40\,$Hz 附近同步发放,跨区域振荡是"装配标签"(Singer、Engel 等的猫 V1 实验)。
  • 位置假说 (Binding by location):因为 V1 的视网膜拓扑映射 (retinotopic map),空间位置天然绑定——同一位置激活的多种特征被自动归到一起。
  • 注意假说 (Feature Integration Theory, FIT):Treisman 提出,绑定需要空间注意把不同特征"粘合"到主图 (master map) 上。下一章「注意力」会详细讨论。

本章关键结论 (Part I)

  1. 视觉通路是层级聚合的:低层特征 → 中层组合 → 高层抽象。
  2. 每个神经元都有感受野,RF 沿层级扩大,特征选择性增加。
  3. 侧抑制在算法的层面对比度增强、减少冗余,是边缘检测的神经实现。
  4. 皮层功能特化:V4→颜色, V5→运动, FFA→面孔。损伤研究给出因果证据。
  5. 功能特化导致绑定问题——这正是从「分散处理」到「统一感知」的认知-神经鸿沟。
PDFV1 感受野:ON-OFF 细胞与方位选择性p.15
正在渲染 PDF 第 15 页…
V1 感受野:ON-OFF 细胞与方位选择性(PDF 第 15 页) · 打开原文
PDFMach Bands 与侧抑制p.24

pdf/认知科学/Visual Cognition 1.pdf · p.24

打开原文

PDFV4 / V5 损伤案例与功能特化p.27

pdf/认知科学/Visual Cognition 1.pdf · p.27

打开原文

Part II · 心理表象
Mental Imagery:表象是「图」还是「句子」

第二部分从「看见」跨越到「想象」。当你闭上眼睛想象一只猫在你家客厅里跑,脑海里的那只猫——它是「图」还是「句子」?这个问题曾经让认知科学分裂成两个阵营。

为什么心理表象的研究困难

心理表象 (mental imagery) 在 20 世纪上半叶是认知心理学的禁区。行为主义把不能直接观察的内部状态排除在科学之外——你无法称量一只想象的猫,无法用尺子量一段想象的路程。直到 1960 年代认知心理学革命,内部表征 (internal representations) 重新成为合法研究对象,心理表象才得以"复活"。

心理表象 (Mental Imagery)

Kosslyn & Thompson (2003) 给出被广泛引用的定义:

视觉心理表象出现在视觉短时记忆 (visual STM) 表征处于激活状态、但刺激并未实际呈现时;它伴随着一种『用心灵之眼看见』的体验。」

简言之:没有光子进入眼睛,但视觉皮层仍处于"看到"的状态。

模拟 vs 命题之争

心理表象的表示格式是什么?这是 1970-80 年代认知心理学最激烈的争论之一。争论双方提出了截然不同的表示假设。

两种对立的表示假说

假说表示形式类比主要支持者
模拟 (Analog / Depictive)表示的结构与被表示物的空间结构同构(图)地图、照片、屏幕像素Kosslyn、Shepard
命题 (Propositional)类语言符号描述物体与关系,无空间结构(句子)数据库记录、关系表Pylyshyn
「黑箱里有两种可能」。当你说"红色的方块在蓝色的方块上",你的大脑里可能真的有一张"图"(模拟表示)——上下方位被保留为空间结构;也可能是一行符号 on(red-square, blue-square)(命题表示)——方位被编码为符号关系,与空间无关。

支持模拟表示的三大经典证据

三类实验证据强有力地支持了"心理表象是模拟的"假说:

证据 1 · 心理旋转 (Mental Rotation, Shepard & Cooper 1973)

让被试判断两个图形(一个是另一个旋转后的版本)是否相同。如果心理表象是模拟的,被试应该在"心里"把第一个图形旋转到与第二个一致,再比较。

  • 预测:反应时 (RT) 与两个图形之间的旋转角度线性正相关。角度越大,旋转越费时。
  • 结果:RT = $a + b \cdot \theta$$0°-180°$ 范围内拟合极佳。

线性关系是关键:命题表示不会预测"30° 比 60° 慢一半"——句子没有角度概念。如果表象是句子,反应时应该与角度无关。

$$RT(\theta) = a + b \cdot \theta, \quad b \approx 2\text{-}4\,\text{ms/deg}$$

例 · 心理旋转实验范式

屏幕左侧出现一个图形(如字母 F),右侧出现另一个图形(如旋转了 $90°$ 的 F)。被试按键判断"相同 / 不同"。系统变化旋转角度,记录 RT。结果如图:

  • 角度 $0°$:RT 最小(无需旋转即可比较)。
  • 角度 $180°$:RT 最大(要旋转半圈)。
  • 中间角度:RT 随角度线性增长,斜率约 $2$ ms/度。

这种线性增长是模拟旋转最直接的证据。

证据 2 · 扫描实验 (Image Scanning, Kosslyn 1978)

让被试记忆一张地图(如一幅小岛地图,岛上有树、池塘等标志物)。然后问"从树到池塘"需要"扫视"多远。结果:

  • 被试报告的"扫视时间"与地图上树到池塘的实际距离正相关。
  • 距离远的物体比距离近的物体需要更长的"扫描"时间。

这意味着表象保留了度量空间信息 (metric spatial information)——命题表示不会保留这些。

证据 3 · 脑成像证据 (fMRI, Kosslyn et al. 1999)

用 fMRI 直接观察被试在视觉想象时的脑活动:

  • 早期视觉皮层 (V1) 在心理表象任务中显著激活
  • 激活的强度与表象的"大小"相关——想象"一只鹰掠过视野"时 V1 的活动模式与实际看到类似。

这个发现直接挑战了命题假说——如果表象是"句子",视觉皮层不应被激活。表象不仅"看起来像"视觉,它就是视觉皮层的部分激活。

认知地图的扭曲:表象不是「完美复制」

但表象不是视觉的"完美复刻"。一个重要现象是认知地图 (cognitive map) 中的系统性扭曲——人们在头脑中持有的地理空间表征,受到概念知识的强烈影响。

例 · Reno vs San Diego:哪个更靠东?

看地图就知道,San Diego 在南加州(西海岸),Reno 在内华达州(明显更东)。但许多人凭直觉回答"Reno 更东"——因为他们应用了概念知识

  • 内华达州 (Nevada) 在加利福尼亚州 (California) 的东边。
  • Reno 在内华达,San Diego 在加利福尼亚。
  • 所以 Reno 应该比 San Diego 更东。

这种推理在尺度上是对的,但在城市尺度上产生了系统性错误——它揭示了层级化概念组织 (hierarchical conceptual organization) 对心理表象的扭曲。

表象 = 视觉 + 概念。心理表象既不是纯粹的"图",也不是纯粹的"句子"。它有空间结构(来自视觉系统),但又受到概念知识(语义、范畴、世界知识)的调制。与视觉图像最重要的区别是:心理表象很难被「重读」——一旦你按某种方式"看见"了模糊图形(如 Necker 立方体),你很难再"看见"另一种解释;视觉图像可以,睁眼重看即可。

表象与感知的对比:分辨率与错觉

分辨率缩放 (Finke & Kosslyn 1980)

让被试判断视野中两个点是否能被区分,定义视野分辨率 (field of resolution)。结果:

  • 实际观看时与心理想象时的分辨率模式高度相似
  • 两种情况下,水平 vs 垂直方向有类似的"分辨率各向异性"(中心比周边分辨率高)。

这说明心理表象与视觉感知共享一套"显示设备"——它们使用相同的低层视觉资源。

但表象和感知也有不同:

  • 表象中物体的大小注意力影响:蜜蜂旁的兔子没有大象旁的兔子"细节丰富"(Russell's 兔子头)。
  • 表象受错觉影响(如 Ponzo 错觉),但效应比真实视觉弱。
  • 表象不易重读,如 Necker 立方体(一旦按一种方式"看见"了,另一种解释很难想象出来)。

本章关键结论 (Part II)

  1. 心理表象不是纯命题表示——三类经典实验(心理旋转、扫描、fMRI)都支持模拟表征
  2. 表象复用视觉皮层:想象一只猫会部分激活 V1 等早期视觉区。
  3. 但表象≠视觉——它受到概念知识调制(认知地图扭曲),且难以重读。
  4. 表象是准图画 (quasi-pictorial) 但非纯空间:模拟的,但有概念介入。
PDF心理表象的定义与行为主义争议p.3

pdf/认知科学/Visual Cognition 2.pdf · p.3

打开原文

PDF模拟 vs 命题表示对比p.12

pdf/认知科学/Visual Cognition 2.pdf · p.12

打开原文

PDF心理旋转实验:角度与反应时的线性关系p.22
正在渲染 PDF 第 22 页…
心理旋转实验:角度与反应时的线性关系(PDF 第 22 页) · 打开原文
PDF认知地图扭曲与层次化概念组织p.35

pdf/认知科学/Visual Cognition 2.pdf · p.35

打开原文

Part III · 物体识别
我们如何把视网膜图像变成「一只猫」

第三部分解决认知科学中"最难的问题之一":物体识别 (object recognition)。我们能在 $100$ ms 内从一瞥中认出物体——"这是一只猫"——而不论它的视角、大小、颜色、姿态、光照如何变化。这种不变性 (invariance) 至今是计算机视觉的核心难题。

为什么物体识别难:视角与形变的不变性

同一个物体在视网膜上的成像可以差异巨大:

  • 旋转、缩放、位移 (translation, rotation, scale)
  • 光照变化、遮挡、变形
  • 同类物体的"例间变化" (intra-class variation):猫和猫的差异

认知系统必须找到一个"与具体图像无关"的物体本质。四大经典识别理论以不同方式回答"什么是不变的":

四大物体识别理论概览

理论 不变量 核心假设 主要问题
模板匹配 (Template)原样匹配把输入与存储的模板逐像素比较无法处理形变;模板数爆炸
特征理论 (Feature)特征集合物体 = 特征袋 (bag of features)特征相同但物体不同 (结构信息丢失)
成分识别 (RBC / Geons)几何成分 + 空间关系物体 = 24 个 geon 的组合难以处理颜色/纹理;复杂自然图像难分
构型模型 (Configural / Exemplar)与原型的距离存储类别原型,按距离判别无法解释部件关系;面孔倒置效应

理论 1 · 模板匹配 (Template Matching)

最朴素的想法:识别 = 比对。预先存储一组"模板"(标准图案),把输入和每个模板比较,匹配最好的就识别为该模板代表的物体。

类比:把当前图案放在一组"印章"上,看哪个印章完全吻合——这是指纹识别、字符识别 (OCR) 的核心思路。

问题 1:变换不变性。如果物体被旋转、缩放、平移,模板可能不直接匹配。解决方案:先用一组变换 (translation, rotation, scale) 把输入与模板"对齐",再比较。但搜索空间巨大(3 个变换参数 × 巨大范围)。

问题 2:模板数量爆炸。要识别不同大小、方向、颜色的"M",要存储指数级数量的模板。

问题 3:忽略直觉。一个"M" 在视觉上是一个 M,不管你把它放大、涂红、还是倾斜;模板匹配无法捕捉"本质相同"这件事。

模板匹配的适用场景

模板匹配在约束环境下表现优异:

  • 指纹识别:指纹图案基本不变形、类内差异小。
  • 工业检测:待检测物体在固定位置/姿态出现。
  • 字符识别 (印刷体):字体、大小已知。

但对一般物体识别(如自然场景中的猫)远远不够。

理论 2 · 特征理论 (Feature Theories)

Selim Selfridge 1959 年的 "Pandemonium" 模型是特征理论的早期实现。核心思想:

特征匹配模型 (Feature-matching Models)

把每个物体分解为一组特征 (features)。识别时搜索这些特征的存在——只要特征集合对得上,就识别为该物体。

特征理论很好地契合神经科学的并行分布处理 (PDP) 思想:每个特征检测器都是一个独立的"恶魔" (demon),并行工作;物体识别是这些恶魔的集体投票

优势

  • 部分遮挡时仍可识别(局部特征存在即可)。
  • 特征检测器可以独立工作,支持并行处理。
  • 神经上有对应物——Hubel-Wiesel 的"条形检测器"就是特征检测器的神经实现。

致命问题

特征相同 ≠ 物体相同。两个物体可能由完全相同的特征组成,只是排列不同。如下面 (a) 和 (b) 都是「三个垂直条 + 三个水平条」,但一个是字母"E",另一个是反"E"。特征理论无法区分这种结构差异——这是「结构信息丢失 (loss of structural information)」问题。

这个缺陷直接催生了下一个理论:结构理论 (structural theories),核心是「物体 = 特征 + 特征间关系」。

理论 3 · 成分识别 / RBC (Biederman 1987)

Irving Biederman 在 1987 年提出成分识别理论 (Recognition-By-Components, RBC),把结构信息显式纳入模型。

RBC / Geon 理论

任何三维物体都可以被分解为大约 24 个基本几何体 (geons, geometric ions) 的组合。识别 = 识别 geon + 识别 geon 间的空间关系。

类比:英语有 26 个字母,几十万单词都由这些字母组合而成;视觉有 24 个 geon,所有物体都由这些 geon 组合而成。

为什么是这 24 个 geon?它们的选择基于一个关键概念:非偶然属性 (non-accidental properties, NAPs)

非偶然属性 (Non-Accidental Properties, NAPs)

在大多数视角下,物体部件之间呈现的关系(平行、共线、对称、连续)是视角无关的——从任何视角看,"两个部件共线"几乎都意味着它们在 3D 中是共线的(除非是罕见的"偶然视角")。

基于 NAPs 划分的 geon 从大多数视角都能被正确识别,这被称为视角不变性 (viewpoint invariance)

graph TD
  A["3D 物体"] --> B["分线 (line drawing)"]
  B --> C{"识别 geons
(24 个几何体)"} C --> D["Geon 1: 圆柱"] C --> E["Geon 2: 圆锥"] C --> F["Geon 3: 立方块"] C --> G["..."] D --> H["空间关系 (NAPs)"] E --> H F --> H G --> H H --> I["结构描述
Structural Description"] I --> J["物体识别
Object Recognition"] classDef node fill:#6366f11f,stroke:#6366f1,color:#e8e8f0; classDef endnode fill:#22c55e2e,stroke:#22c55e,color:#dcfce7; class A,B,C,D,E,F,G,H,I node; class J endnode;

RBC 的预测

  • 当物体的 geon 可以被恢复时,识别较快;
  • 破坏顶点 (vertices)(连接两个 geon 的关键点)比简单删除线条更影响识别——因为顶点是 geon 划分的依据。

RBC 的局限

  1. 结构描述不够:要区分两把不同的椅子,仅靠 geon 组合不够——需要尺寸、比例、纹理等度量信息 (metric information)
  2. 难以从真实图像提取 geon:分线提取、顶点检测在噪声图像上很困难。
  3. 忽略颜色/纹理:许多物体(橘子 vs 葡萄柚)靠颜色和纹理区分,geon 一样。

理论 4 · 构型模型 (Configural / Exemplar Models)

构型模型把焦点从"抽象结构"转向"具体例子的分布"。

构型模型 / 原型说

每个类别存储一个原型 (prototype)——类别中所有例子的"平均"。识别 = 把当前输入与原型比较,看距离多远。

这能解释 RBC 难以解释的例间变异 (intra-class variability):两只不同的猫由"猫原型"的两个不同位置表示,识别时根据距离判别。

最有名的预测

漫画效应 (Caricature Effect)

对脸做漫画化 (caricature)处理——夸大这张脸相对平均脸 (prototype) 的特征差异——人脸识别率不下降,甚至上升

这是构型模型的直接证据:识别看的是"相对原型的偏离方向与幅度",漫画化增大了这个幅度,反而更易识别。

构型效应在倒置时消失 (Face Inversion Effect)

  • 正立时,识别一张脸更多依赖整体构型 (configural processing)
  • 倒置时,构型处理被破坏,被试退回到局部部件分析,识别能力急剧下降。

这是构型模型独有的预测——RBC 不会预测倒置效应(它对正立/倒立一视同仁)。

词优效应与交互激活模型 (IA Model)

物体识别中上下文 (context) 的影响是另一个关键问题。最经典的实验是词优效应 (Word Superiority Effect)

词优效应 (Word Superiority Effect)

识别一个孤立字母比识别一个嵌在真词中的同一字母更难。例如:

  • 呈现 K 单独:识别率 80%
  • 呈现 WORK 中的 K:识别率 95%
  • 呈现 TWZK 中的 K:识别率与孤立 K 接近

关键:词优效应不只是反应偏向 (response bias)——敏感度 (sensitivity, d') 也提高了,说明词汇知识真的影响了字母识别。

这种"高层影响低层"的现象不能用纯 bottom-up 解释。McClelland & Rumelhart 1981 年提出交互激活模型 (Interactive Activation, IA Model),把视觉识别形式化为三层神经网络:

graph TD
  L0["特征层 (Feature)
笔画/线段/角点"] L1["字母层 (Letter)
A B C ... Z"] L2["词层 (Word)
CATS WORK DARK ..."] L0 -- "Bottom-up
特征激活字母" --> L1 L1 -- "Bottom-up
字母激活词" --> L2 L2 -. "Top-down
词激活字母" .-> L1 L0 -. "Top-down
词激活特征" .-> L0 L1 -- "侧抑制
字母之间互抑" --> L1 L2 -- "侧抑制
词之间互抑" --> L2 classDef feature fill:#22c55e26,stroke:#22c55e,color:#dcfce7; classDef letter fill:#6366f126,stroke:#6366f1,color:#e8e8f0; classDef word fill:#ec489926,stroke:#ec4899,color:#fce7f3; class L0 feature; class L1 letter; class L2 word;

IA 模型的工作机制

  • 三层:特征 → 字母 → 词。每层有多个节点,每个节点有一个激活值
  • 两类连接:层间有兴奋性抑制性连接。
  • 同层抑制 (lateral inhibition):同一层的节点互相竞争。
  • 双向流动:激活同时从下到上 (bottom-up) 和从上到下 (top-down) 流动。
为什么词优效应来自 top-down?当呈现 WORK 时:

  1. 从特征来的 bottom-up 信号同时激活 W、O、R、K 等多个字母(部分激活)。
  2. 词层中 WORK 收到来自 W、O、R、K 的累积激活,开始变强。
  3. WORK 激活后,通过 top-down 连接回送激活到字母 W、O、R、K,让它们的激活值上升。
  4. 字母 K 因此比"孤立"情况下更易被识别——这就是词优效应。

TWZK 这种非词里,词层没有对应的节点被激活,top-down 信号不存在,K 不会得到增强。

脑解码:从脑活动中「读」出看到的内容

21 世纪视觉认知的另一个重大突破是用 fMRI 直接从脑活动中读出你正在看什么。

Haxby et al. 2001 · 96% 准确率的多体素模式分类

Haxby 等人用多体素模式分析 (MVPA, multi-voxel pattern analysis) 在腹侧颞叶皮层 (VTC) 解码被试看到的物体类别:

  • 呈现 8 类物体:面孔、猫、剪刀、椅子、房子、瓶子、鞋子、随机图。
  • 训练分类器(神经网络/SVM)从 VTC 的 fMRI 模式中预测类别。
  • 新图像上达到 96% 准确率

关键发现:不同类别的物体在 VTC 呈现分布且重叠 (distributed and overlapping) 的表征——没有"面孔细胞"或"猫细胞"这样的局部编码,而是整片皮层共同编码,每个体素贡献部分信息。

Miyawaki et al. 2008 · 从 fMRI 重建视觉图像

Miyawaki 等人更激进——他们试图重建被试正在看的简单图案:

  • 呈现 $10 \times 10$ 的二值棋盘格 (100 比特)。
  • 用多尺度 fMRI 信号 + 贝叶斯先验 (natural image statistics) 重建图像。
  • 虽然重建分辨率不高,但呈现了从脑活动到像素级的反向映射可行性。

这个结果打开了"视觉读心术 (visual mind reading)"的大门,也引发了对神经隐私的伦理讨论。

为什么"分布且重叠"很重要?它推翻了"祖母细胞 (grandmother cell)"假说——没有一个神经元只对"我祖母"反应。视觉表征是高度分布的,每个体素参与多类物体的编码。这种分布式编码 (distributed coding) 也是现代深度学习的特征——一个 CNN 通道参与多类物体的识别。

本章关键结论 (Part III)

  1. 物体识别没有"银弹"——模板匹配适合约束场景,特征理论处理形变,RBC 解决结构信息,构型模型处理例间变异。
  2. 词优效应证明高层知识影响低层识别——IA 模型用双向激活流(bottom-up + top-down + 侧抑制)解释。
  3. 脑解码(Haxby 96%, Miyawaki 重建)显示视觉表征是分布式的,从脑活动可以反推你正在看什么。
  4. 四大理论并不互斥——现代观点认为人脑使用它们的某种组合:早期快速特征检测 → 中层部件组装 → 高层构型与上下文调制。
PDF物体识别四大理论总览p.2

pdf/认知科学/Visual Cognition 3.pdf · p.2

打开原文

PDFRBC 理论:24 个 Geon 与视角不变性p.18
正在渲染 PDF 第 18 页…
RBC 理论:24 个 Geon 与视角不变性(PDF 第 18 页) · 打开原文
PDF交互激活模型(IA Model)网络结构p.27
正在渲染 PDF 第 27 页…
交互激活模型(IA Model)网络结构(PDF 第 27 页) · 打开原文
PDFHaxby 96% 分类与 Miyawaki 重建p.37

pdf/认知科学/Visual Cognition 3.pdf · p.37

打开原文

复习速查 · 视觉认知核心要点

视觉通路(一句话):光感受器 → 双极 → 神经节 → 视交叉 → LGN → V1 → V2-V5(腹侧 What 流 / 背侧 Where 流)。

感受野(关键概念)

  • ON-OFF 细胞 = 边缘检测器,中心-周围拮抗。
  • 简单细胞 = 一排 ON-OFF 中心,对特定方位的条形反应强。
  • 复杂细胞 = 多个简单细胞的汇聚,对位置变化不敏感。
  • 原则:高层 RF = 低层 RF 的空间聚合。

侧抑制(一句话):神经元的活动压制邻居的响应 → 增强边缘对比(Mach Bands)、减少冗余。

功能特化(速记):V1 边缘/方位 · V2 主观轮廓 · V3 复杂运动 · V4 颜色 · V5/MT 运动方向 · FFA 面孔。

绑定问题:分立模块独立处理后如何形成统一感知?假说:同步振荡、位置不变、注意绑定 (FIT)。

心理表象(核心):模拟表征而非纯命题,证据来自心理旋转 (RT 与角度线性) / 扫描实验 / fMRI。但表象≠视觉,受概念调制(认知地图扭曲)。

物体识别四大理论

  • 模板匹配:原样比对,简单但僵硬。
  • 特征理论:特征袋,丢失结构。
  • RBC / Geons:24 个几何体 + 空间关系,处理视角不变性。
  • 构型模型:与原型的距离 + 漫画效应 + 倒置效应。

词优效应与 IA 模型:词比孤立字母更易识别 → top-down 词 → 字母的反馈。

脑解码里程碑:Haxby 2001 (96% 8 类分类) + Miyawaki 2008 (fMRI 重建视觉图案)。

参考来源

  • Hubel, D. H., & Wiesel, T. N. (1962). Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. Journal of Physiology, 160(1), 106-154.
  • Mach, E. (1865). Über die Wirkung der räumlichen Vertheilung des Lichtreizes auf die Netzhaut. Sitzungsberichte der kaiserlichen Akademie der Wissenschaften.
  • Ungerleider, L. G., & Mishkin, M. (1982). Two cortical visual systems. In Analysis of Visual Behavior (pp. 549-586). MIT Press.
  • Zeki, S. (1990). The motion vision area MT/V5 in man. Philosophical Transactions of the Royal Society B, 335(1273), 267-275.
  • Treisman, A. M., & Gelade, G. (1980). A feature-integration theory of attention. Cognitive Psychology, 12(1), 97-136.
  • Kosslyn, S. M., & Thompson, W. L. (2003). When is early visual cortex activated during visual mental imagery? Psychological Bulletin, 129(5), 723-746.
  • Shepard, R. N., & Cooper, L. A. (1982). Mental images and their transformations. MIT Press.
  • Finke, R. A., & Kosslyn, S. M. (1980). Mental imagery acuity in the peripheral visual field. Journal of Experimental Psychology: Human Perception and Performance, 6(1), 126-139.
  • Pylyshyn, Z. W. (2002). Mental imagery: In search of a theory. Behavioral and Brain Sciences, 25(2), 157-182.
  • Biederman, I. (1987). Recognition-by-components: A theory of human image understanding. Psychological Review, 94(2), 115-147.
  • McClelland, J. L., & Rumelhart, D. E. (1981). An interactive activation model of context effects in letter perception: Part 1. Psychological Review, 88(5), 375-407.
  • Haxby, J. V., et al. (2001). Distributed and overlapping representations of faces and objects in ventral temporal cortex. Science, 293(5539), 2425-2430.
  • Miyawaki, Y., et al. (2008). Reconstructing visual experiences from brain activity evoked by visual patterns. Neuron, 60(5), 869-876.
  • Solso, R. L., MacLin, M. K., & MacLin, O. H. (2005). Cognitive Psychology (8th ed.). Pearson. (Chapter 4: Visual Perception & Imagery)