语言理解

2026/05/22 13:32:00·2026/06/08 20:30:00

课程认知科学·36 min read

认知科学语言理解 TRACE模型语义加工范畴特异性损伤

前置知识与学习目标

前置知识：神经元基础（动作电位、突触权重）、神经网络前馈与反向传播、视觉认知章节的感受野与层级加工。建议先回顾「课程导论」的神经网络小节。

本章学习目标：

理解言语感知面对的言语可变性难题与协同发音约束，认识到语音信号不是离散符号而是连续频谱
掌握 McGurk效应、音素恢复效应、语义上下文效应三大跨模态与 top-down加工证据
理解 Cohort 模型与 TRACE模型的并行竞争机制，能描述三层交互激活的算法
建立三角形模型（正字法 ↔语音 ↔语义）的整体框架，能用它解释常见的命名错误与失读症
了解失语症类型与 Hickok & Poeppel 双通路模型
理解范畴特异性语义损伤现象与感觉-功能理论的解释，掌握神经网络模拟"病灶损伤"的方法

PDF本章 PPT概览：言语感知、词汇识别、语义表征p.1

pdf/认知科学/Language Comprehension.pdf · p.1

打开原文

一、言语感知 · Speech Perception

言语感知是语言理解的第一道关卡。它把高度可变的声学信号映射到离散的音素、再到词，最后到意义。这一节会反复回到一个核心问题：给定一段连续声波，听者是如何确定说话人说了什么的？

1.1言语感知的多阶段加工

从声学信号到词义的提取至少经过四个层级：

音素检测（phoneme detection）：识别基本语音单元 /b/、/e/、/t/、/e/、/r/
音节组合（syllable assembly）：把音素组合成 /be/ /ter/ 等音节
词提取（word recognition）：音节组合成 "better" 这种完整词形
词义检索（lexical access）：从心理词典中检索词对应的概念与意义

要点：听者通常意识不到这几个阶段的串行感。词义几乎是实时（毫秒级）浮现的，但底层的层级加工是连续发生的。

1.2声谱（Spectrogram）：把声音"画"出来

声谱把声音信号从「振幅随时间变化」的一维波形，转换为「频率 × 时间 ×能量」的三维表征。横轴是时间，纵轴是频率，灰度/颜色深浅表示该时刻该频率的能量强度。

声谱（Spectrogram）是言语声学分析的核心工具。每句话对应一条独一无二的「频率指纹」：浊音（vowels、声母 b/d/g 等）有明显的低频共振峰（formant）结构，擦音和摩擦音呈现高频乱纹，爆破音则留下短暂的静默（closure）和突发（release）。

经典例子："I owe you a yo-yo"。短短七个词，其声谱就足以让熟练的语音学家逐词分辨——共振峰的走向、爆破间隙的位置、词与词之间的过渡形态都清晰可读。

PDF声谱分析与音节计数难题（Hyvää huomenta 等多语料）

pdf/认知科学/Language Comprehension.pdf

打开原文

课堂练习：数词挑战

PPT给出几段芬兰语录音让听众数词数：

Hyvää huomenta（芬兰语）：两个词，意为 "Good morning"
Kiitoksia oikein paljon：三个词，意为 "Thank you very much"
Ilmatyynyalukseni on täynnä ankeriaita：四个词，意为 "My hovercraft is full of eels"

这个练习反映了一个核心事实：词与词之间没有清晰的物理边界。连续语流中既没有强制停顿，也没有显式的词标记，听者必须依赖内在的词汇知识和句法知识来切分。

1.3言语感知的两大难题

言语信号给听者的认知系统出了两道题：

难题一：词边界模糊

口语中词与词之间没有像书面语那样的空格。声道物理上不会每说完一个词就强制停顿，听者必须在线切分。

难题二：音素难以辨识

造成音素难辨识的因素至少有三类：

协同发音（coarticulation，连音）：相邻音在声道中相互影响、彼此融合。例如把 /d/ 和 /u/ 连读时，/d/ 的频率特征已经和 /u/ 的共振峰部分重叠
说话人差异：不同说话人的音高（受年龄、性别影响）、口音、语速都不同
环境差异：背景噪声、距离、回声等

缺乏不变性（Lack of Invariance）：相同的音素在不同上下文、不同说话人、不同语速下，其声学特征差异极大。这意味着不存在一个"标准声学模板"能让听者直接匹配——必须依赖上下文、经验和高层知识。

下图是协同发音的典型示例。/d/ 和 /u/单独发音与连读时的声学差异显著，连读时几乎没有清晰可分的"d-then-u"，而是连续滑动的频谱：

PDF协同发音造成的声学连续性p.5

pdf/认知科学/Language Comprehension.pdf · p.5

打开原文

1.4听者如何消解歧义？三种 top-down策略

既然声学信号本身高度模糊，听者必须借助上下文信息（context）来填补缺口。上下文至少来自三个层面：

上下文类型	来源	典型效应
跨模态上下文	视觉（唇形、面部、手势）	McGurk效应：听觉 +视觉融合
语义上下文	词义、句子主题、世界知识	Pollack & Pickett 实验：剪接词识别率从47%显著提高
语言学上下文	音节结构、词频、句法	词频效应、词汇启动

核心观点：这三种上下文都体现一个共同原则——言语感知不是纯粹 bottom-up 的特征匹配，而是 bottom-up 信号与 top-down知识持续交互的结果。这是后续 TRACE 模型的基本假设。

1.5 McGurk效应：视觉改变听觉

McGurk & MacDonald (1976) "Hearing lips and seeing voices"，Nature264:746-748。

实验范式：受试者看一段视频，听到声音 /ba/（auditory "ba"），但看到的唇形是 /ga/（视觉 "ga"）。

结果：约 98% 的成年人报告自己听到的是 /da/——既不是 /ba/也不是 /ga/，而是两者融合后的新音素。

McGurk效应（McGurk Effect）：听觉感知会被视觉信息显著调制。当听觉和视觉提示冲突时，大脑做出"合理假设"，把两个通道的信息融合（fuse），生成一个既不来自听觉也不来自视觉的第三种感知。

这一效应有力证明了言语感知是多源信息并行+交互的加工过程：唇动（视觉）和声波（听觉）都被假定为"信息源"，大脑会自动融合它们。

PDFMcGurk 效应：跨模态整合改变听觉感知 · p.7–8p.7–8

正在渲染 PDF 第 7 页…

正在渲染 PDF 第 8 页…

McGurk 效应：跨模态整合改变听觉感知（PDF p.7–8） · 打开原文

1.6语义上下文效应：Pollack & Pickett (1964)

经典实验设计：

录制若干段对话，受试者在对话情境下听这些词，几乎都能识别正确
把词从原对话中剪接出来单独播放，识别率骤降至 47%
重新提供上下文（语义、句法），识别率显著回升

结论：言语清晰（clarity of speech）很大程度上是错觉。我们听到的"清晰"，其实有相当一部分来自上下文推断——"我们听到自己想听到的"。这和视觉的错觉填充、记忆的重构效应一脉相承：人类认知本质上是建构性的，而非被动记录。

PDFPollack & Pickett上下文效应与音素恢复效应

pdf/认知科学/Language Comprehension.pdf

打开原文

1.7音素恢复效应（Phonemic Restoration）

经典演示：呈现词 legislature，但把其中某个音素替换为咳嗽声或蜂鸣噪声：

Legi[lature]：听到 "legislature"，仿佛没有缺失
Legi[lature]：同样感知为完整词，且无法准确指出噪声位置

更巧妙的版本："It was found that the eel was on the axle"——把 "wheel" 中的 /w/ 用咳嗽遮蔽，听者根据 eel、axle推断缺失音，得到 "wheel"。

音素恢复效应（Phonemic Restoration）：当语音信号被噪声遮蔽（如咳嗽声、蜂鸣）时，听者倾向于填补缺失音素，并难以觉察到中断。这说明音素识别过程具有主动的预测和重建机制——大脑不接受"听不清"作为最终输出。

该效应是语境驱动感知重建（context-driven perceptual reconstruction）的最清晰证据之一，与视觉系统对遮挡边缘的"幻觉轮廓"（illusory contour）异曲同工。

二、词汇识别的计算模型 · Computational Models of Word Recognition

既然言语感知高度依赖上下文，那么口语词识别（spoken word recognition）的计算模型就必须解释两个核心机制：

并行激活：听到 /b/之后，所有以 /b/ 开头的候选词同时被激活
竞争淘汰：随着声学信号展开，候选词逐步淘汰，直到唯一胜出

2.1 Cohort 模型：队列与唯一性点

Cohort 模型（队列模型）：Marslen-Wilson & Welsh (1978)，1989 年修订。

听到词的首音后，所有首音相同的词都进入一个临时的"队列"（cohort）。随后的每一个音素都进一步过滤这个队列。当队列中只剩一个候选词时，达到唯一性点（uniqueness point）——这是词被识别的时刻。

例子：听到 "cat" 的 /k/ 时，候选集包含 cat, car, card, carry, captain, ...；听到 /kæ/ 时还剩 cat, cap, cab, ...；听到 /kæt/ 时只剩 cat——这就是它的唯一性点。

关键点：听者通常意识不到这一过滤过程。我们直接体验到"我知道这个词了"，但底层候选词的激活和竞争是毫秒级自动发生的。

PDFCohort 模型：首音激活、并行竞争、唯一性点

pdf/认知科学/Language Comprehension.pdf

打开原文

2.2眼动证据：Tanenhaus范式

如何验证 Cohort 模型？眼动追踪提供了一个优雅的窗口：

实验范式：让受试者听到 "Point to the beaker"，面前的屏幕上有：

目标：beaker（烧杯）
队列竞争者（cohort competitor）：beetle（甲虫）
押韵竞争者（rhyme competitor）：speaker（扬声器）
无关词：carriage（马车）

受试者佩戴头戴式眼动仪，记录他们听到指令时的注视位置。

关键发现：

在听到 "beaker"完整词之前，受试者已经先看向 beaker、beetle 等以 /b/ 开头的对象——证明早期激活已经发生
押韵词 speaker 的注视时间显著短于目标，说明在 /b/阶段就被排除
无关词 carriage几乎不被注视

意义：眼动时间序列直接揭示了词识别的实时过程——这是 Cohort 模型和 TRACE 模型最具说服力的实验支持之一。

PDFTanenhaus眼动追踪范式：注视对象与时间关系

pdf/认知科学/Language Comprehension.pdf

打开原文

2.3 TRACE 模型：三层交互激活神经网络

TRACE 模型：McClelland & Elman (1986)。"TRACE: A Parallel Interactive Activation Model of Speech Processing"，Cognitive Science。

TRACE 是 Cohort模型的神经网络实现，把言语感知建模为一个三层交互激活网络。

下图是 TRACE 模型的整体架构：

graph TB
subgraph F["特征层 (Feature Layer)"]
F1["发声特征
voicing, place, manner"]
F2["频率/能量特征"]
end
subgraph P["音素层 (Phoneme Layer)"]
P1["/b/"]
P2["/e/"]
P3["/t/"]
P4["/k/"]
P5["/æ/"]
P6["其他音素..."]
end
subgraph W["词层 (Word Layer)"]
W1["bat"]
W2["bet"]
W3["cat"]
W4["cap"]
W5["cabbage"]
W6["其他词..."]
end

F1 -->|"bottom-up
excitatory"| P1
F1 -->|"bottom-up
excitatory"| P2
F2 -->|"bottom-up
excitatory"| P5
P1 -->|"bottom-up
excitatory"| W1
P1 -->|"bottom-up
excitatory"| W2
P3 -->|"bottom-up
excitatory"| W1
P3 -->|"bottom-up
excitatory"| W2
P5 -->|"bottom-up
excitatory"| W1
P5 -->|"bottom-up
excitatory"| W2

W1 -->|"top-down
excitatory"| P1
W1 -->|"top-down
excitatory"| P3
W1 -->|"top-down
excitatory"| P5
W2 -->|"top-down
excitatory"| P2
W2 -->|"top-down
excitatory"| P3
W2 -->|"top-down
excitatory"| P5

P1 -.->|"lateral
inhibitory"| P4
P2 -.->|"lateral
inhibitory"| P4
P3 -.->|"lateral
inhibitory"| P4
P4 -.->|"lateral
inhibitory"| P1
P5 -.->|"lateral
inhibitory"| P6

W1 -.->|"lateral
inhibitory"| W3
W1 -.->|"lateral
inhibitory"| W4
W2 -.->|"lateral
inhibitory"| W3
W3 -.->|"lateral
inhibitory"| W1
W4 -.->|"lateral
inhibitory"| W1

classDef feat fill:#3b82f6,stroke:#1d4ed8,color:#fff;
classDef phon fill:#8b5cf6,stroke:#6d28d9,color:#fff;
classDef word fill:#10b981,stroke:#047857,color:#fff;
class F1,F2 feat;
class P1,P2,P3,P4,P5,P6 phon;
class W1,W2,W3,W4,W5,W6 word;

TRACE 的三条核心规则：

规则1：层间连接是双向兴奋性

特征→音素、音素→词的连接是 bottom-up兴奋；词→音素、音素→特征的连接是 top-down兴奋。这让模型能模拟 McGurk效应、音素恢复等"高层知识反过来影响低层感知"的现象。

规则2：层内连接是侧抑制

同一层内的单元彼此相互抑制（lateral inhibition）。这让模型形成一个胜者通吃（winner-take-all）的动力学——激活值最高的候选词最终压制所有竞争者。

规则3：激活随时间演化

每个单元的激活值随声学输入动态更新。支持双向交互意味着：候选词 bat 一旦有微弱激活，就会反过来强化其组成音素 /b/、/æ/、/t/，这些音素又进一步强化 bat——形成正反馈，直到稳定胜出。

TRACE模型的预测：

系统激活所有与当前声学输入一致的候选词
候选词彼此竞争（通过侧抑制）
胜者被选出，竞争者被抑制——这就是识别

理论意义：TRACE 把 Cohort模型的"并行+竞争"思想落地为一个可计算的神经网络，并自然地容纳了 top-down效应。这与 McClelland & Rumelhart (1981) 的字母/词识别交互激活模型（IA 模型）一脉相承——只是把视觉字母换成了听觉音素。

PDFTRACE 模型：三层交互激活网络架构p.19

正在渲染 PDF 第 19 页…

TRACE 模型：三层交互激活网络架构（PDF 第 19 页） · 打开原文

2.4 Cohort vs. TRACE：殊途同归

两个模型有大量共通点：

维度	Cohort 模型	TRACE 模型
候选激活	并行激活首音相同的词	三层并行激活
竞争机制	随输入过滤、淘汰	层内侧抑制（winner-take-all）
Top-down	未明确建模	显式建模（词→音素→特征）
实现形式	符号/概念模型	神经网络（可计算）
关键证据	唯一性点（uniqueness point）	McGurk、音素恢复、上下文效应

两者都依赖并行激活+部分候选词之间的竞争。这一共识也影响了后续的视觉词识别模型——说明并行+竞争是人类词识别的核心计算原则，不分听和读。

三、语言的大脑基础与语义表征 · Neural Basis and Semantic Representation

从声谱走到意义，最后一关是语义加工。这一节关注三个问题：词在大脑中如何表征？失语症揭示了怎样的语言器官结构？为什么有些病人只对一类词（生物/工具）失能？

3.1三角形模型：三种表征的连接

三角形模型（Triangle Model）：Seidenberg & McClelland (1989)、Plaut et al. (1996) 等提出。词的概念在三个相互连接的表征系统之间转换：

正字法（orthography）：词的拼写/视觉形式
语音（phonology）：词的发音/听觉形式
语义（semantics）：词的意义/概念

三角形结构图：

graph LR
O[/"正字法
Orthography
(spelling)"/]
P[/"语音
Phonology
(sound)"/]
S[/"语义
Semantics
(meaning)"/]

O <-->|"读：orthography → phonology"| P
P <-->|"听：phonology → orthography"| O
O <-->|"命名：orthography → semantics"| S
S <-->|"理解：semantics → orthography"| O
P <-->|"命名：phonology → semantics"| S
S <-->|"理解：semantics → phonology"| P

O -.->|"间接
via semantics"| P
P -.->|"间接
via semantics"| O

classDef orth fill:#f59e0b,stroke:#b45309,color:#fff;
classDef phon fill:#8b5cf6,stroke:#6d28d9,color:#fff;
classDef sem fill:#10b981,stroke:#047857,color:#fff;
class O orth;
class P phon;
class S sem;

关键观察：

三个表征系统两两连接，任意一对都可以直接转换
语音↔正字法之间既有直接通路（GPC规则），也有经由语义的间接通路
模型解释了命名、阅读、口头理解等不同任务可以用不同通路组合完成

重要提示：三角形模型是后续双通路阅读模型（Dual-Route）和深层失读症 vs 表层失读症解释的概念基础——同一架构，不同损伤模式会产生不同的临床综合征。

3.2失语症类型：大脑语言器官的窗口

19 世纪以来，对失语症患者的临床观察奠定了大脑语言区的基本框架：

类型	病灶	核心症状	理解能力	产出能力
Broca失语（表达性）	左额下回（Broca 区）	语法缺失、电报式语、停顿多	相对保留	严重受损
Wernicke失语（接受性）	左颞上回后部（Wernicke 区）	流利但空洞、新造词（jargon）、无语义	严重受损	流利但无意义
传导性失语（conduction）	弓状束（连接 Broca 与 Wernicke）	复述能力严重受损，自发言语相对流利	相对保留	复述困难
命名性失语（anomic）	左颞叶	找词困难（tip-of-the-tongue），理解保留	保留	找词障碍

古典 Wernicke-Geschwind 模型：Broca 区负责言语产出，Wernicke 区负责言语理解，两者通过弓状束连接。该模型解释了大量临床现象，但也过度简化了大脑语言网络的真实复杂性——现代神经成像显示语言加工涉及多个分布式网络，远不止两个"中心"。

3.3 Hickok & Poeppel 双通路模型

Hickok & Poeppel (2004,2007)双通路模型：言语加工沿两条解剖上可分的大脑通路进行。

graph LR
A[/"听觉皮层
Heschl's gyrus"/]
D["背侧通路
Dorsal
颞叶后部 →额下回
(Broca 区)"]
V["腹侧通路
Ventral
颞叶后部 →颞叶前部"]
S1[/"语音运动表征
articulatory network"/]
S2[/"词-义映射
lexical-semantic interface"/]
S3[/"概念系统
conceptual store"/]

A -->|"谱图分析"| D
A -->|"谱图分析"| V
D --> S1
V --> S2
S2 --> S3

classDef input fill:#3b82f6,stroke:#1d4ed8,color:#fff;
classDef dorsal fill:#f59e0b,stroke:#b45309,color:#fff;
classDef ventral fill:#10b981,stroke:#047857,color:#fff;
classDef output fill:#8b5cf6,stroke:#6d28d9,color:#fff;
class A input;
class D dorsal;
class V ventral;
class S1,S2,S3 output;

两条通路的功能分工：

背侧通路（dorsal stream，颞叶后部 → Broca 区）：负责语音→运动的转换，主要支持复述、语音工作记忆、言语产出。"听到什么就说什么"靠这条通路
腹侧通路（ventral stream，颞叶后部 →颞叶前部）：负责语音→语义的映射，支持言语理解、词汇识别、把声音转化为意义

与视觉类比：背侧"在哪里/怎么用"（where/how）、腹侧"是什么"（what）——这是大脑两流假设在语言系统中的体现（Milner & Goodale,1992视觉版本；Hickok & Poeppel,2007听觉版本）。

3.4 双通路阅读模型（Dual-Route Model of Reading）

双通路阅读模型：阅读印刷词时存在两条独立通路。

graph LR
V[/"视觉词形
printed word"/]
L["词汇通路
Lexical Route
整词查词典"]
N["非词汇通路
Nonlexical Route
GPC规则
(grapheme-to-phoneme)"]
O[/"语音产出
phonological output"/]
S[/"语义系统
semantic system"/]

V --> L
V --> N
L -->|"整词 →词条"| O
L -->|"词条 →意义"| S
N -->|"字素→音素转换"| O
S -.->|"语义中介"| O

classDef input fill:#3b82f6,stroke:#1d4ed8,color:#fff;
classDef lexical fill:#10b981,stroke:#047857,color:#fff;
classDef nonlex fill:#f59e0b,stroke:#b45309,color:#fff;
classDef output fill:#8b5cf6,stroke:#6d28d9,color:#fff;
class V input;
class L lexical;
class N nonlex;
class O,S output;

两条通路的对比：

维度	词汇通路	非词汇通路（GPC）
加工对象	熟悉的整词	任意可拼读的字符串
机制	查心理词典（视觉词形→词条）	字素→音素转换规则
速度	对高频词更快	对规则新词稳定
失败模式	不规则词（如 yacht）会出错	不规则词（如 have 中的 a）读错
损伤后果	深层失读症（读音→语义）	表层失读症（拼读→规则化）

深层失读症（Deep Dyslexia）：非词汇通路受损，只能走词汇通路。读 yacht 时直接通过语义猜测，常常读成 "boat" 这种语义相关词。

表层失读症（Surface Dyslexia）：词汇通路受损，只能走 GPC规则。读 yacht 时按规则拼成 /jætʃt/ 这种规则化但错误的发音，因为不知道这个例外。

意义：双通路模型把三角形模型和失读症临床证据结合，给出了统一的解释框架——损伤哪条通路就出现对应的失读类型。

3.5范畴特异性语义损伤：JBR、SBY 与"生物 vs工具"分裂

比"读不准"更戏剧化的现象：有些病人对某一类词的命名或定义能力严重受损，但其他类词完好。

案例 JBR（生物类受损）：

Parrot（鹦鹉）："don't know"
Daffodil（黄水仙）："plant"
Snail（蜗牛）："an insect animal"
Ostrich（鸵鸟）："unusual"
Eel（鳗鱼）："not well"

对工具/非生物则定义良好：

Tent（帐篷）："temporary outhouse, living home"
Briefcase（公文包）："small case used by students to carry papers"
Compass（指南针）："looks for telling direction you are going"
Torch（手电筒）："hand-held light"

案例 SBY（模式相反）：生物类基本正确，工具类严重受损：

Wheelbarrow（独轮车）："object used by people to take material about"
Towel（毛巾）："material used to dry people"
Crocus（番红花）："rubbish material"
Umbrella（雨伞）："object used to protect you from water"

范畴特异性语义损伤（Category-Specific Semantic Deficits）：脑损伤可以选择性地破坏某一语义范畴（如生物 vs 非生物）的表征，而保留其他范畴完整。这种双重分离（double dissociation）证明不同语义范畴依赖不同的神经基础。

PDF范畴特异性语义损伤：JBR 与 SBY案例的对比定义

pdf/认知科学/Language Comprehension.pdf

打开原文

3.6感觉-功能理论（Sensory-Functional Theory）

如何解释这种分裂？早期假设：大脑中存在两套独立系统——一套管"生物"，一套管"工具"。但证据表明单一系统也可以解释——关键是不同范畴依赖不同类型的特征。

感觉-功能理论（Sensory-Functional Theory, SF Theory）：所有概念都由一个统一的分布式语义系统表征，但不同范畴依赖不同类型的特征。

生物（动物、植物）：主要由感觉特征（sensory/perceptual features）定义——外观、形状、颜色、动作模式、运动特征
非生物（工具、人造物）：主要由功能特征（functional features）定义——用途、操作方式、与人的关系

关键证据：词典特征统计（字典中描述词条的属性比例）：

范畴	感觉特征 : 功能特征	解释
生物（living）	7.7 :1	高度依赖视觉/感觉属性
非生物（nonliving）	1.4 :1	感觉与功能属性相对均衡，但功能略多

核心预测：感觉区损伤（影响感觉特征）→ 生物类命名困难；功能区损伤（影响功能特征）→ 非生物类命名困难。这与 JBR/SBY 的临床模式吻合。

3.7神经网络模拟：病灶损伤揭示范畴特异性

Farah & McClelland 等用神经网络直接模拟了这种损伤模式：

构建一个单一系统的神经网络，输入图片 → 输出名称（命名任务），同时也能从名称 →视觉特征（理解任务）
网络中包含两类语义节点：视觉/感觉节点（visual/sensory）和功能节点（functional）
训练网络区分 N 个生物与非生物
训练完成后，人工损伤特定节点：

病灶位置	模拟结果	对应临床模式
损伤视觉/感觉节点	网络对生物的命名和理解能力大幅下降	JBR 类型
损伤功能节点	网络对非生物的命名和理解能力大幅下降	SBY 类型
不损伤	所有范畴的命名/理解都正常	健康对照

理论意义：范畴特异性损伤不需要两个独立的语义系统。单一分布式系统 + 不同范畴对不同特征类型的依赖 → 选择性损伤可以产生貌似"分系统"的临床模式。这是认知神经科学中"涌现的分离"（emergent dissociation）的一个清晰例证。

PDF感觉-功能理论的神经网络实现与选择性病灶损伤模拟

pdf/认知科学/Language Comprehension.pdf

打开原文

3.8 表征意义：没有"心理词典"这件事

最后一个关键认识：大脑中没有一个独立存放"心理词典"（mental dictionary）的区域。相反，意义以分布式表征（distributed representation）存储——一个概念由许多不同类型的特征节点共同激活来定义。

感觉/视觉特征：颜色、形状、大小、声音、运动模式
功能特征：用途、操作方式、因果关系
情境/情感特征：使用场景、社会含义

类比：一个词的语义就像激活向量，每个维度对应一种属性。"狗"激活了大量感觉特征（毛茸茸、四条腿、会叫）+少量功能特征（陪伴、看门）。"锤子"激活了大量功能特征（敲击、握持）+少量感觉特征（金属头、木柄）。这种向量空间而非条目清单的表征方式，与现代词嵌入（word embedding）一脉相承。

四、复习速查 · One-Page Cheat Sheet

概念	一句话定义	关键证据/案例
声谱（spectrogram）	频率×时间×能量的三维声学表征	"I owe you a yo-yo"频谱指纹
协同发音（coarticulation）	相邻语音在声道中相互融合	/d/+/u/ 连读的频谱滑动
缺乏不变性（lack of invariance）	同一音素在不同语境下声学特征差异极大	说话人差异、口音、语速
McGurk效应	视觉唇形改变听觉感知	/ba/+唇形 /ga/ →98%感知为 /da/
音素恢复（phonemic restoration）	听者自动填补被噪声遮蔽的音素	Legi[lature] 仍感知为 legislature
语义上下文效应	上下文帮助识别被剪接出来的孤立词	Pollack & Pickett：47% →显著提高
Cohort 模型	首音激活所有候选词，随输入过滤	唯一性点（uniqueness point）
TRACE 模型	三层交互激活神经网络，特征→音素→词	McClelland & Elman,1986
三角形模型	正字法 ↔语音 ↔语义，三角形连接	Seidenberg & McClelland,1989
背侧通路	语音→运动，复述和语音工作记忆	Hickok & Poeppel 双通路模型
腹侧通路	语音→语义，言语理解	颞叶后部 →颞叶前部
双通路阅读模型	词汇通路 + 非词汇通路（GPC）	深层失读症 vs 表层失读症
范畴特异性损伤	某一语义范畴（生物/非生物）选择性受损	JBR（生物受损） vs SBY（工具受损）
感觉-功能理论	生物依赖感觉特征，工具依赖功能特征	词典比例7.7:1 vs1.4:1

参考来源

西安交通大学「计算认知科学与工程」课程 PPT：Language Comprehension。本地路径：src/media/pdf/认知科学/Language Comprehension.pdf。
McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices. Nature,264,746-748. Nature原文
Pollack, I., & Pickett, J. M. (1964). Intelligibility of excerpts from conversation. Language and Speech,7(2),101-108.
Warren, R. M. (1970). Perceptual restoration of missing speech sounds. Science,167(3917),392-393. Science原文
Marslen-Wilson, W. D., & Welsh, A. (1978). Processing interactions and lexical access during word recognition in continuous speech. Cognitive Psychology,10(1),29-63.
McClelland, J. L., & Elman, J. L. (1986). The TRACE model of speech perception. Cognitive Psychology,18(1),1-86. Cognitive Psychology原文
McClelland, J. L., & Rumelhart, D. E. (1981). An interactive activation model of context effects in letter perception. Psychological Review,88(5),375-407.
Seidenberg, M. S., & McClelland, J. L. (1989). A distributed, developmental model of word recognition and naming. Psychological Review,96(4),523-568.
Plaut, D. C., McClelland, J. L., Seidenberg, M. S., & Patterson, K. (1996). Understanding normal and impaired word reading: Computational principles in quasi-regular domains. Psychological Review,103(1),56-115.
Hickok, G., & Poeppel, D. (2007). The cortical organization of speech processing. Nature Reviews Neuroscience,8(5),393-402. Nature Reviews原文
Farah, M. J., & McClelland, J. L. (1991). A computational model of semantic memory impairment: Modality specificity and emergent category specificity. Psychological Review,98(3),446-461.
Warrington, E. K., & Shallice, T. (1984). Category-specific semantic impairments. Brain,107(3),829-854. Brain原文
Stanford Encyclopedia of Philosophy · Speech Perception：补充言语感知与知觉组织的哲学-认知交叉视角。

上一章记忆枢纽页认知计算科学下一章决策与推理