ESC
输入关键词搜索文章
目录

语言理解

Language Comprehension ·言语感知与语义加工
从声谱到意义的认知之旅
9子节
4Mermaid 图
5理论模型
3经典案例

前置知识与学习目标

前置知识:神经元基础(动作电位、突触权重)、神经网络前馈与反向传播、视觉认知章节的感受野与层级加工。建议先回顾「课程导论」的神经网络小节。

本章学习目标

  • 理解言语感知面对的言语可变性难题与协同发音约束,认识到语音信号不是离散符号而是连续频谱
  • 掌握 McGurk效应、音素恢复效应、语义上下文效应三大跨模态与 top-down加工证据
  • 理解 Cohort 模型与 TRACE模型的并行竞争机制,能描述三层交互激活的算法
  • 建立三角形模型(正字法 ↔语音 ↔语义)的整体框架,能用它解释常见的命名错误与失读症
  • 了解失语症类型与 Hickok & Poeppel 双通路模型
  • 理解范畴特异性语义损伤现象与感觉-功能理论的解释,掌握神经网络模拟"病灶损伤"的方法
PDF本章 PPT概览:言语感知、词汇识别、语义表征p.1

pdf/认知科学/Language Comprehension.pdf · p.1

打开原文

一、言语感知 · Speech Perception

言语感知是语言理解的第一道关卡。它把高度可变的声学信号映射到离散的音素、再到词,最后到意义。这一节会反复回到一个核心问题:给定一段连续声波,听者是如何确定说话人说了什么的

1.1言语感知的多阶段加工

从声学信号到词义的提取至少经过四个层级:

  1. 音素检测(phoneme detection):识别基本语音单元 /b/、/e/、/t/、/e/、/r/
  2. 音节组合(syllable assembly):把音素组合成 /be/ /ter/ 等音节
  3. 词提取(word recognition):音节组合成 "better" 这种完整词形
  4. 词义检索(lexical access):从心理词典中检索词对应的概念与意义
要点:听者通常意识不到这几个阶段的串行感。词义几乎是实时(毫秒级)浮现的,但底层的层级加工是连续发生的。

1.2声谱(Spectrogram):把声音"画"出来

声谱把声音信号从「振幅随时间变化」的一维波形,转换为「频率 × 时间 ×能量」的三维表征。横轴是时间,纵轴是频率,灰度/颜色深浅表示该时刻该频率的能量强度。

声谱(Spectrogram)是言语声学分析的核心工具。每句话对应一条独一无二的「频率指纹」:浊音(vowels、声母 b/d/g 等)有明显的低频共振峰(formant)结构,擦音和摩擦音呈现高频乱纹,爆破音则留下短暂的静默(closure)和突发(release)。

经典例子:"I owe you a yo-yo"。短短七个词,其声谱就足以让熟练的语音学家逐词分辨——共振峰的走向、爆破间隙的位置、词与词之间的过渡形态都清晰可读。

PDF声谱分析与音节计数难题(Hyvää huomenta 等多语料)

pdf/认知科学/Language Comprehension.pdf

打开原文

课堂练习:数词挑战

PPT给出几段芬兰语录音让听众数词数:

  • Hyvää huomenta(芬兰语):两个词,意为 "Good morning"
  • Kiitoksia oikein paljon:三个词,意为 "Thank you very much"
  • Ilmatyynyalukseni on täynnä ankeriaita:四个词,意为 "My hovercraft is full of eels"

这个练习反映了一个核心事实:词与词之间没有清晰的物理边界。连续语流中既没有强制停顿,也没有显式的词标记,听者必须依赖内在的词汇知识句法知识来切分。

1.3言语感知的两大难题

言语信号给听者的认知系统出了两道题:

难题一:词边界模糊

口语中词与词之间没有像书面语那样的空格。声道物理上不会每说完一个词就强制停顿,听者必须在线切分。

难题二:音素难以辨识

造成音素难辨识的因素至少有三类:

  • 协同发音(coarticulation,连音):相邻音在声道中相互影响、彼此融合。例如把 /d/ 和 /u/ 连读时,/d/ 的频率特征已经和 /u/ 的共振峰部分重叠
  • 说话人差异:不同说话人的音高(受年龄、性别影响)、口音、语速都不同
  • 环境差异:背景噪声、距离、回声等

缺乏不变性(Lack of Invariance):相同的音素在不同上下文、不同说话人、不同语速下,其声学特征差异极大。这意味着不存在一个"标准声学模板"能让听者直接匹配——必须依赖上下文、经验和高层知识。

下图是协同发音的典型示例。/d/ 和 /u/单独发音与连读时的声学差异显著,连读时几乎没有清晰可分的"d-then-u",而是连续滑动的频谱:

PDF协同发音造成的声学连续性p.5

pdf/认知科学/Language Comprehension.pdf · p.5

打开原文

1.4听者如何消解歧义?三种 top-down策略

既然声学信号本身高度模糊,听者必须借助上下文信息(context)来填补缺口。上下文至少来自三个层面:

上下文类型来源典型效应
跨模态上下文视觉(唇形、面部、手势)McGurk效应:听觉 +视觉融合
语义上下文词义、句子主题、世界知识Pollack & Pickett 实验:剪接词识别率从47%显著提高
语言学上下文音节结构、词频、句法词频效应、词汇启动
核心观点:这三种上下文都体现一个共同原则——言语感知不是纯粹 bottom-up 的特征匹配,而是 bottom-up 信号与 top-down知识持续交互的结果。这是后续 TRACE 模型的基本假设。

1.5 McGurk效应:视觉改变听觉

McGurk & MacDonald (1976) "Hearing lips and seeing voices",Nature264:746-748。

实验范式:受试者看一段视频,听到声音 /ba/(auditory "ba"),但看到的唇形是 /ga/(视觉 "ga")。

结果:约 98% 的成年人报告自己听到的是 /da/——既不是 /ba/也不是 /ga/,而是两者融合后的新音素。

McGurk效应(McGurk Effect):听觉感知会被视觉信息显著调制。当听觉和视觉提示冲突时,大脑做出"合理假设",把两个通道的信息融合(fuse),生成一个既不来自听觉也不来自视觉的第三种感知

这一效应有力证明了言语感知是多源信息并行+交互的加工过程:唇动(视觉)和声波(听觉)都被假定为"信息源",大脑会自动融合它们。

PDFMcGurk 效应:跨模态整合改变听觉感知 · p.7–8p.7–8
正在渲染 PDF 第 7 页…
正在渲染 PDF 第 8 页…
McGurk 效应:跨模态整合改变听觉感知(PDF p.7–8) · 打开原文

1.6语义上下文效应:Pollack & Pickett (1964)

经典实验设计:

  1. 录制若干段对话,受试者在对话情境下听这些词,几乎都能识别正确
  2. 把词从原对话中剪接出来单独播放,识别率骤降至 47%
  3. 重新提供上下文(语义、句法),识别率显著回升
结论:言语清晰(clarity of speech)很大程度上是错觉。我们听到的"清晰",其实有相当一部分来自上下文推断——"我们听到自己想听到的"。这和视觉的错觉填充、记忆的重构效应一脉相承:人类认知本质上是建构性的,而非被动记录。
PDFPollack & Pickett上下文效应与音素恢复效应

pdf/认知科学/Language Comprehension.pdf

打开原文

1.7音素恢复效应(Phonemic Restoration)

经典演示:呈现词 legislature,但把其中某个音素替换为咳嗽声或蜂鸣噪声:

  • Legi[lature]:听到 "legislature",仿佛没有缺失
  • Legi[lature]:同样感知为完整词,且无法准确指出噪声位置

更巧妙的版本:"It was found that the eel was on the axle"——把 "wheel" 中的 /w/ 用咳嗽遮蔽,听者根据 eel、axle推断缺失音,得到 "wheel"。

音素恢复效应(Phonemic Restoration):当语音信号被噪声遮蔽(如咳嗽声、蜂鸣)时,听者倾向于填补缺失音素,并难以觉察到中断。这说明音素识别过程具有主动的预测和重建机制——大脑不接受"听不清"作为最终输出。

该效应是语境驱动感知重建(context-driven perceptual reconstruction)的最清晰证据之一,与视觉系统对遮挡边缘的"幻觉轮廓"(illusory contour)异曲同工。

二、词汇识别的计算模型 · Computational Models of Word Recognition

既然言语感知高度依赖上下文,那么口语词识别(spoken word recognition)的计算模型就必须解释两个核心机制:

  1. 并行激活:听到 /b/之后,所有以 /b/ 开头的候选词同时被激活
  2. 竞争淘汰:随着声学信号展开,候选词逐步淘汰,直到唯一胜出

2.1 Cohort 模型:队列与唯一性点

Cohort 模型(队列模型):Marslen-Wilson & Welsh (1978),1989 年修订。

听到词的首音后,所有首音相同的词都进入一个临时的"队列"(cohort)。随后的每一个音素都进一步过滤这个队列。当队列中只剩一个候选词时,达到唯一性点(uniqueness point)——这是词被识别的时刻。

例子:听到 "cat" 的 /k/ 时,候选集包含 cat, car, card, carry, captain, ...;听到 /kæ/ 时还剩 cat, cap, cab, ...;听到 /kæt/ 时只剩 cat——这就是它的唯一性点。

关键点:听者通常意识不到这一过滤过程。我们直接体验到"我知道这个词了",但底层候选词的激活和竞争是毫秒级自动发生的。
PDFCohort 模型:首音激活、并行竞争、唯一性点

pdf/认知科学/Language Comprehension.pdf

打开原文

2.2眼动证据:Tanenhaus范式

如何验证 Cohort 模型?眼动追踪提供了一个优雅的窗口:

实验范式:让受试者听到 "Point to the beaker",面前的屏幕上有:

  • 目标:beaker(烧杯)
  • 队列竞争者(cohort competitor):beetle(甲虫)
  • 押韵竞争者(rhyme competitor):speaker(扬声器)
  • 无关词:carriage(马车)

受试者佩戴头戴式眼动仪,记录他们听到指令时的注视位置

关键发现:

  • 在听到 "beaker"完整词之前,受试者已经先看向 beaker、beetle 等以 /b/ 开头的对象——证明早期激活已经发生
  • 押韵词 speaker 的注视时间显著短于目标,说明在 /b/阶段就被排除
  • 无关词 carriage几乎不被注视
意义:眼动时间序列直接揭示了词识别的实时过程——这是 Cohort 模型和 TRACE 模型最具说服力的实验支持之一。
PDFTanenhaus眼动追踪范式:注视对象与时间关系

pdf/认知科学/Language Comprehension.pdf

打开原文

2.3 TRACE 模型:三层交互激活神经网络

TRACE 模型:McClelland & Elman (1986)。"TRACE: A Parallel Interactive Activation Model of Speech Processing",Cognitive Science

TRACE 是 Cohort模型的神经网络实现,把言语感知建模为一个三层交互激活网络。

下图是 TRACE 模型的整体架构:

graph TB
subgraph F["特征层 (Feature Layer)"]
F1["发声特征
voicing, place, manner"] F2["频率/能量特征"] end subgraph P["音素层 (Phoneme Layer)"] P1["/b/"] P2["/e/"] P3["/t/"] P4["/k/"] P5["/æ/"] P6["其他音素..."] end subgraph W["词层 (Word Layer)"] W1["bat"] W2["bet"] W3["cat"] W4["cap"] W5["cabbage"] W6["其他词..."] end F1 -->|"bottom-up
excitatory"| P1 F1 -->|"bottom-up
excitatory"| P2 F2 -->|"bottom-up
excitatory"| P5 P1 -->|"bottom-up
excitatory"| W1 P1 -->|"bottom-up
excitatory"| W2 P3 -->|"bottom-up
excitatory"| W1 P3 -->|"bottom-up
excitatory"| W2 P5 -->|"bottom-up
excitatory"| W1 P5 -->|"bottom-up
excitatory"| W2 W1 -->|"top-down
excitatory"| P1 W1 -->|"top-down
excitatory"| P3 W1 -->|"top-down
excitatory"| P5 W2 -->|"top-down
excitatory"| P2 W2 -->|"top-down
excitatory"| P3 W2 -->|"top-down
excitatory"| P5 P1 -.->|"lateral
inhibitory"| P4 P2 -.->|"lateral
inhibitory"| P4 P3 -.->|"lateral
inhibitory"| P4 P4 -.->|"lateral
inhibitory"| P1 P5 -.->|"lateral
inhibitory"| P6 W1 -.->|"lateral
inhibitory"| W3 W1 -.->|"lateral
inhibitory"| W4 W2 -.->|"lateral
inhibitory"| W3 W3 -.->|"lateral
inhibitory"| W1 W4 -.->|"lateral
inhibitory"| W1 classDef feat fill:#3b82f6,stroke:#1d4ed8,color:#fff; classDef phon fill:#8b5cf6,stroke:#6d28d9,color:#fff; classDef word fill:#10b981,stroke:#047857,color:#fff; class F1,F2 feat; class P1,P2,P3,P4,P5,P6 phon; class W1,W2,W3,W4,W5,W6 word;

TRACE 的三条核心规则:

规则1:层间连接是双向兴奋性

特征→音素、音素→词的连接是 bottom-up兴奋;词→音素、音素→特征的连接是 top-down兴奋。这让模型能模拟 McGurk效应、音素恢复等"高层知识反过来影响低层感知"的现象。

规则2:层内连接是侧抑制

同一层内的单元彼此相互抑制(lateral inhibition)。这让模型形成一个胜者通吃(winner-take-all)的动力学——激活值最高的候选词最终压制所有竞争者。

规则3:激活随时间演化

每个单元的激活值随声学输入动态更新。支持双向交互意味着:候选词 bat 一旦有微弱激活,就会反过来强化其组成音素 /b/、/æ/、/t/,这些音素又进一步强化 bat——形成正反馈,直到稳定胜出。

TRACE模型的预测:

  • 系统激活所有与当前声学输入一致的候选词
  • 候选词彼此竞争(通过侧抑制)
  • 胜者被选出,竞争者被抑制——这就是识别
理论意义:TRACE 把 Cohort模型的"并行+竞争"思想落地为一个可计算的神经网络,并自然地容纳了 top-down效应。这与 McClelland & Rumelhart (1981) 的字母/词识别交互激活模型(IA 模型)一脉相承——只是把视觉字母换成了听觉音素。
PDFTRACE 模型:三层交互激活网络架构p.19
正在渲染 PDF 第 19 页…
TRACE 模型:三层交互激活网络架构(PDF 第 19 页) · 打开原文

2.4 Cohort vs. TRACE:殊途同归

两个模型有大量共通点:

维度Cohort 模型TRACE 模型
候选激活并行激活首音相同的词三层并行激活
竞争机制随输入过滤、淘汰层内侧抑制(winner-take-all)
Top-down未明确建模显式建模(词→音素→特征)
实现形式符号/概念模型神经网络(可计算)
关键证据唯一性点(uniqueness point)McGurk、音素恢复、上下文效应

两者都依赖并行激活+部分候选词之间的竞争。这一共识也影响了后续的视觉词识别模型——说明并行+竞争是人类词识别的核心计算原则,不分听和读。

三、语言的大脑基础与语义表征 · Neural Basis and Semantic Representation

从声谱走到意义,最后一关是语义加工。这一节关注三个问题:词在大脑中如何表征?失语症揭示了怎样的语言器官结构?为什么有些病人对一类词(生物/工具)失能?

3.1三角形模型:三种表征的连接

三角形模型(Triangle Model):Seidenberg & McClelland (1989)、Plaut et al. (1996) 等提出。词的概念在三个相互连接的表征系统之间转换:

  • 正字法(orthography):词的拼写/视觉形式
  • 语音(phonology):词的发音/听觉形式
  • 语义(semantics):词的意义/概念

三角形结构图:

graph LR
O[/"正字法
Orthography
(spelling)"/] P[/"语音
Phonology
(sound)"/] S[/"语义
Semantics
(meaning)"/] O <-->|"读:orthography → phonology"| P P <-->|"听:phonology → orthography"| O O <-->|"命名:orthography → semantics"| S S <-->|"理解:semantics → orthography"| O P <-->|"命名:phonology → semantics"| S S <-->|"理解:semantics → phonology"| P O -.->|"间接
via semantics"| P P -.->|"间接
via semantics"| O classDef orth fill:#f59e0b,stroke:#b45309,color:#fff; classDef phon fill:#8b5cf6,stroke:#6d28d9,color:#fff; classDef sem fill:#10b981,stroke:#047857,color:#fff; class O orth; class P phon; class S sem;

关键观察:

  • 三个表征系统两两连接,任意一对都可以直接转换
  • 语音↔正字法之间既有直接通路(GPC规则),也有经由语义的间接通路
  • 模型解释了命名、阅读、口头理解等不同任务可以用不同通路组合完成
重要提示:三角形模型是后续双通路阅读模型(Dual-Route)和深层失读症 vs 表层失读症解释的概念基础——同一架构,不同损伤模式会产生不同的临床综合征。

3.2失语症类型:大脑语言器官的窗口

19 世纪以来,对失语症患者的临床观察奠定了大脑语言区的基本框架:

类型病灶核心症状理解能力产出能力
Broca失语(表达性)左额下回(Broca 区)语法缺失、电报式语、停顿多相对保留严重受损
Wernicke失语(接受性)左颞上回后部(Wernicke 区)流利但空洞、新造词(jargon)、无语义严重受损流利但无意义
传导性失语(conduction)弓状束(连接 Broca 与 Wernicke)复述能力严重受损,自发言语相对流利相对保留复述困难
命名性失语(anomic)左颞叶找词困难(tip-of-the-tongue),理解保留保留找词障碍

古典 Wernicke-Geschwind 模型:Broca 区负责言语产出,Wernicke 区负责言语理解,两者通过弓状束连接。该模型解释了大量临床现象,但也过度简化了大脑语言网络的真实复杂性——现代神经成像显示语言加工涉及多个分布式网络,远不止两个"中心"。

3.3 Hickok & Poeppel 双通路模型

Hickok & Poeppel (2004,2007)双通路模型:言语加工沿两条解剖上可分的大脑通路进行。

graph LR
A[/"听觉皮层
Heschl's gyrus"/] D["背侧通路
Dorsal
颞叶后部 →额下回
(Broca 区)"] V["腹侧通路
Ventral
颞叶后部 →颞叶前部"] S1[/"语音运动表征
articulatory network"/] S2[/"词-义映射
lexical-semantic interface"/] S3[/"概念系统
conceptual store"/] A -->|"谱图分析"| D A -->|"谱图分析"| V D --> S1 V --> S2 S2 --> S3 classDef input fill:#3b82f6,stroke:#1d4ed8,color:#fff; classDef dorsal fill:#f59e0b,stroke:#b45309,color:#fff; classDef ventral fill:#10b981,stroke:#047857,color:#fff; classDef output fill:#8b5cf6,stroke:#6d28d9,color:#fff; class A input; class D dorsal; class V ventral; class S1,S2,S3 output;

两条通路的功能分工:

  • 背侧通路(dorsal stream,颞叶后部 → Broca 区):负责语音→运动的转换,主要支持复述语音工作记忆、言语产出。"听到什么就说什么"靠这条通路
  • 腹侧通路(ventral stream,颞叶后部 →颞叶前部):负责语音→语义的映射,支持言语理解、词汇识别、把声音转化为意义
与视觉类比:背侧"在哪里/怎么用"(where/how)、腹侧"是什么"(what)——这是大脑两流假设在语言系统中的体现(Milner & Goodale,1992视觉版本;Hickok & Poeppel,2007听觉版本)。

3.4 双通路阅读模型(Dual-Route Model of Reading)

双通路阅读模型:阅读印刷词时存在两条独立通路。

graph LR
V[/"视觉词形
printed word"/] L["词汇通路
Lexical Route
整词查词典"] N["非词汇通路
Nonlexical Route
GPC规则
(grapheme-to-phoneme)"] O[/"语音产出
phonological output"/] S[/"语义系统
semantic system"/] V --> L V --> N L -->|"整词 →词条"| O L -->|"词条 →意义"| S N -->|"字素→音素转换"| O S -.->|"语义中介"| O classDef input fill:#3b82f6,stroke:#1d4ed8,color:#fff; classDef lexical fill:#10b981,stroke:#047857,color:#fff; classDef nonlex fill:#f59e0b,stroke:#b45309,color:#fff; classDef output fill:#8b5cf6,stroke:#6d28d9,color:#fff; class V input; class L lexical; class N nonlex; class O,S output;

两条通路的对比:

维度词汇通路非词汇通路(GPC)
加工对象熟悉的整词任意可拼读的字符串
机制查心理词典(视觉词形→词条)字素→音素转换规则
速度对高频词更快对规则新词稳定
失败模式不规则词(如 yacht)会出错不规则词(如 have 中的 a)读错
损伤后果深层失读症(读音→语义)表层失读症(拼读→规则化)

深层失读症(Deep Dyslexia):非词汇通路受损,只能走词汇通路。读 yacht 时直接通过语义猜测,常常读成 "boat" 这种语义相关词

表层失读症(Surface Dyslexia):词汇通路受损,只能走 GPC规则。读 yacht 时按规则拼成 /jætʃt/ 这种规则化但错误的发音,因为不知道这个例外。

意义:双通路模型把三角形模型失读症临床证据结合,给出了统一的解释框架——损伤哪条通路就出现对应的失读类型。

3.5范畴特异性语义损伤:JBR、SBY 与"生物 vs工具"分裂

比"读不准"更戏剧化的现象:有些病人对某一类词的命名或定义能力严重受损,但其他类词完好。

案例 JBR(生物类受损):

  • Parrot(鹦鹉):"don't know"
  • Daffodil(黄水仙):"plant"
  • Snail(蜗牛):"an insect animal"
  • Ostrich(鸵鸟):"unusual"
  • Eel(鳗鱼):"not well"

工具/非生物则定义良好:

  • Tent(帐篷):"temporary outhouse, living home"
  • Briefcase(公文包):"small case used by students to carry papers"
  • Compass(指南针):"looks for telling direction you are going"
  • Torch(手电筒):"hand-held light"

案例 SBY(模式相反):生物类基本正确,工具类严重受损:

  • Wheelbarrow(独轮车):"object used by people to take material about"
  • Towel(毛巾):"material used to dry people"
  • Crocus(番红花):"rubbish material"
  • Umbrella(雨伞):"object used to protect you from water"

范畴特异性语义损伤(Category-Specific Semantic Deficits):脑损伤可以选择性地破坏某一语义范畴(如生物 vs 非生物)的表征,而保留其他范畴完整。这种双重分离(double dissociation)证明不同语义范畴依赖不同的神经基础

PDF范畴特异性语义损伤:JBR 与 SBY案例的对比定义

pdf/认知科学/Language Comprehension.pdf

打开原文

3.6感觉-功能理论(Sensory-Functional Theory)

如何解释这种分裂?早期假设:大脑中存在两套独立系统——一套管"生物",一套管"工具"。但证据表明单一系统也可以解释——关键是不同范畴依赖不同类型的特征

感觉-功能理论(Sensory-Functional Theory, SF Theory):所有概念都由一个统一的分布式语义系统表征,但不同范畴依赖不同类型的特征

  • 生物(动物、植物):主要由感觉特征(sensory/perceptual features)定义——外观、形状、颜色、动作模式、运动特征
  • 非生物(工具、人造物):主要由功能特征(functional features)定义——用途、操作方式、与人的关系

关键证据:词典特征统计(字典中描述词条的属性比例):

范畴感觉特征 : 功能特征解释
生物(living)7.7 :1高度依赖视觉/感觉属性
非生物(nonliving)1.4 :1感觉与功能属性相对均衡,但功能略多
核心预测:感觉区损伤(影响感觉特征)→ 生物类命名困难;功能区损伤(影响功能特征)→ 非生物类命名困难。这与 JBR/SBY 的临床模式吻合。

3.7神经网络模拟:病灶损伤揭示范畴特异性

Farah & McClelland 等用神经网络直接模拟了这种损伤模式:

  1. 构建一个单一系统的神经网络,输入图片 → 输出名称(命名任务),同时也能从名称 →视觉特征(理解任务)
  2. 网络中包含两类语义节点视觉/感觉节点(visual/sensory)和功能节点(functional)
  3. 训练网络区分 N 个生物与非生物
  4. 训练完成后,人工损伤特定节点:
病灶位置模拟结果对应临床模式
损伤视觉/感觉节点网络对生物的命名和理解能力大幅下降JBR 类型
损伤功能节点网络对非生物的命名和理解能力大幅下降SBY 类型
不损伤所有范畴的命名/理解都正常健康对照

理论意义:范畴特异性损伤不需要两个独立的语义系统。单一分布式系统 + 不同范畴对不同特征类型的依赖 → 选择性损伤可以产生貌似"分系统"的临床模式。这是认知神经科学中"涌现的分离"(emergent dissociation)的一个清晰例证。

PDF感觉-功能理论的神经网络实现与选择性病灶损伤模拟

pdf/认知科学/Language Comprehension.pdf

打开原文

3.8 表征意义:没有"心理词典"这件事

最后一个关键认识:大脑中没有一个独立存放"心理词典"(mental dictionary)的区域。相反,意义以分布式表征(distributed representation)存储——一个概念由许多不同类型的特征节点共同激活来定义。

  • 感觉/视觉特征:颜色、形状、大小、声音、运动模式
  • 功能特征:用途、操作方式、因果关系
  • 情境/情感特征:使用场景、社会含义
类比:一个词的语义就像激活向量,每个维度对应一种属性。"狗"激活了大量感觉特征(毛茸茸、四条腿、会叫)+少量功能特征(陪伴、看门)。"锤子"激活了大量功能特征(敲击、握持)+少量感觉特征(金属头、木柄)。这种向量空间而非条目清单的表征方式,与现代词嵌入(word embedding)一脉相承。
四、复习速查 · One-Page Cheat Sheet
概念一句话定义关键证据/案例
声谱(spectrogram)频率×时间×能量的三维声学表征"I owe you a yo-yo"频谱指纹
协同发音(coarticulation)相邻语音在声道中相互融合/d/+/u/ 连读的频谱滑动
缺乏不变性(lack of invariance)同一音素在不同语境下声学特征差异极大说话人差异、口音、语速
McGurk效应视觉唇形改变听觉感知/ba/+唇形 /ga/ →98%感知为 /da/
音素恢复(phonemic restoration)听者自动填补被噪声遮蔽的音素Legi[lature] 仍感知为 legislature
语义上下文效应上下文帮助识别被剪接出来的孤立词Pollack & Pickett:47% →显著提高
Cohort 模型首音激活所有候选词,随输入过滤唯一性点(uniqueness point)
TRACE 模型三层交互激活神经网络,特征→音素→词McClelland & Elman,1986
三角形模型正字法 ↔语音 ↔语义,三角形连接Seidenberg & McClelland,1989
背侧通路语音→运动,复述和语音工作记忆Hickok & Poeppel 双通路模型
腹侧通路语音→语义,言语理解颞叶后部 →颞叶前部
双通路阅读模型词汇通路 + 非词汇通路(GPC)深层失读症 vs 表层失读症
范畴特异性损伤某一语义范畴(生物/非生物)选择性受损JBR(生物受损) vs SBY(工具受损)
感觉-功能理论生物依赖感觉特征,工具依赖功能特征词典比例7.7:1 vs1.4:1

参考来源

  • 西安交通大学「计算认知科学与工程」课程 PPT:Language Comprehension。本地路径:src/media/pdf/认知科学/Language Comprehension.pdf

  • McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices. Nature,264,746-748. Nature原文

  • Pollack, I., & Pickett, J. M. (1964). Intelligibility of excerpts from conversation. Language and Speech,7(2),101-108.

  • Warren, R. M. (1970). Perceptual restoration of missing speech sounds. Science,167(3917),392-393. Science原文

  • Marslen-Wilson, W. D., & Welsh, A. (1978). Processing interactions and lexical access during word recognition in continuous speech. Cognitive Psychology,10(1),29-63.

  • McClelland, J. L., & Elman, J. L. (1986). The TRACE model of speech perception. Cognitive Psychology,18(1),1-86. Cognitive Psychology原文

  • McClelland, J. L., & Rumelhart, D. E. (1981). An interactive activation model of context effects in letter perception. Psychological Review,88(5),375-407.

  • Seidenberg, M. S., & McClelland, J. L. (1989). A distributed, developmental model of word recognition and naming. Psychological Review,96(4),523-568.

  • Plaut, D. C., McClelland, J. L., Seidenberg, M. S., & Patterson, K. (1996). Understanding normal and impaired word reading: Computational principles in quasi-regular domains. Psychological Review,103(1),56-115.

  • Hickok, G., & Poeppel, D. (2007). The cortical organization of speech processing. Nature Reviews Neuroscience,8(5),393-402. Nature Reviews原文

  • Farah, M. J., & McClelland, J. L. (1991). A computational model of semantic memory impairment: Modality specificity and emergent category specificity. Psychological Review,98(3),446-461.

  • Warrington, E. K., & Shallice, T. (1984). Category-specific semantic impairments. Brain,107(3),829-854. Brain原文

  • Stanford Encyclopedia of Philosophy · Speech Perception:补充言语感知与知觉组织的哲学-认知交叉视角。