人工智能编年史
一切开始于一纸论文。
1936年,24岁的剑桥大学研究生艾伦·图灵发表了《论可计算数及其在判定问题上的应用》。在论文中,他构想了一个极其简单的抽象机器——一条无限长的纸带、一个读写头、一套有限的状态规则。这个"通用图灵机"可以计算任何可计算的问题。
这个想法原本是为了回答数学基础的问题(希尔伯特的判定问题),但它意外地为"机器能否思考"这个更古老的问题铺平了道路。如果一台极其简单的抽象机器能够计算任何逻辑上可计算的事情,那么智能所需的计算是否也只是某种特殊形式的符号操作?
1950年,图灵在《Mind》杂志上发表了那篇划时代的论文《计算机器与智能》。开篇他写道:
"我提议考虑这个问题:'机器能思考吗?'"
他提出如果一台机器能够在远程对话中让人类无法区分它和真人,那么我们就应该认为它具有智能。这就是图灵测试。这篇文章奠定了AI的哲学地基。
1956年:AI的"出生证明"
1956年夏天,一场为期八周的工作坊在新罕布什尔州的达特茅斯学院举行。组织者是约翰·麦卡锡,参与者包括马文·明斯基、克劳德·香农、纳撒尼尔·罗切斯特等人。麦卡锡在提案中写下了被历史铭记的句子:
"我们提议在1956年夏天举行一场关于人工智能的工作坊……这项研究基于以下猜想:学习的每个方面或智能的任何其他特征,原则上都可以被如此精确地描述,以至于一台机器可以被制造出来模拟它。"
这是"人工智能"这个术语第一次被正式使用。达特茅斯会议被后世视为AI的"出生证明"。
1958年:感知机的崛起
1958年,康奈尔大学的弗兰克·罗森布拉特发明了感知机——一台硬件实现的单层神经网络,能够学会对简单图案进行分类。《纽约时报》报道称这是一台"能思考的机器"。
罗森布拉特的乐观不是孤例。1960年代是AI的第一个黄金时代。MIT的AI实验室充斥着乐观主义。明斯基在1967年写道:"在一代人的时间内,创造'人工智能'的问题将基本解决。"
1969年:感知机的陨落——第一次冬天
1969年,明斯基和派珀特出版了《感知机》一书,用严格的数学证明单层感知机无法解决XOR这样简单的非线性分类问题。这本书的论证摧毁了资助者对神经网络的信心。政府资助迅速转向符号推理。与此同时,英国莱特希尔报告(1973)对AI做出严苛评价,导致英国AI研究资助大幅削减。
第一次AI冬天降临了。
1980年代:专家系统的黄金时代
AI找到了它的第一种"商业落地"形式——专家系统。MYCIN诊断血液感染疾病,XCON帮助DEC配置计算机系统,每年节省约4000万美元。日本政府发起雄心勃勃的"第五代计算机"计划。LISP机器公司如日中天。
1986年:反向传播的复兴
戴维·鲁梅尔哈特、杰弗里·辛顿和罗纳德·威廉姆斯重新发现了反向传播算法(backpropagation)——一种让多层神经网络能从错误中学习的方法。神经网络研究重新点燃了希望。
1987-1993:第二次AI冬天
专家系统暴露出根本缺陷——规则写不完、维护成本极高、无法处理未知情况。LISP机器市场崩溃,数百家AI初创倒闭。日本五代机计划悄无声息地终结。第二次冬天比第一次更冷、更长。
1997年:深蓝 vs 卡斯帕罗夫
1997年5月11日,IBM的深蓝在六局国际象棋比赛中以3.5比2.5击败世界冠军卡斯帕罗夫。这是计算机首次在正式比赛中击败人类世界冠军。但深蓝用的是暴力搜索——能下棋,但除此之外什么都不会。
2006年:深度学习概念的诞生
杰弗里·辛顿发表了关于深度信念网络的论文,提出逐层预训练方法训练深层神经网络。"深度学习"这个术语正式诞生。当时的AI学界仍对神经网络持怀疑态度——但辛顿实验室里的几个年轻人即将改变一切。
2012年9月30日:AlexNet 的冲击
ImageNet挑战赛上,辛顿和他的两名学生亚历克斯·克里热夫斯基、伊利娅·苏茨克弗提交了一个八层卷积神经网络——AlexNet。结果令人震惊:AlexNet的top-5错误率为15.3%,而第二名的传统方法是26.2%。差距超过10个百分点——从马车到飞机的跨越。
💡 为什么 AlexNet 能赢?
三样东西的汇聚:ImageNet巨量数据(1400万张图)、GPU并行计算(两块GTX 580)、以及dropout等新训练技巧。每一环单独都不够,三者同时"造"了这场革命。
转年,辛顿被Google收购了他的公司DNNresearch。苏茨克弗参与创立的DeepMind更早被Google收购。深度学习之战已经打响。
2014年:GAN——酒吧之夜的天才念头
Ian Goodfellow回忆,2014年的一个晚上,他和朋友们在蒙特利尔一家酒吧讨论机器如何生成逼真图像。当晚回到住处后,Goodfellow在凌晨2点开始在笔记本上编码。12小时后,写出了一个可运行的——它成功了。
这就是生成对抗网络(GAN)——两个神经网络博弈:一个生成者(伪造图像)、一个判别者(判断真假)。这个"酒吧之夜"的实验后来被引用超过10万次。
2016年3月:AlphaGo vs 李世石——第37手
首尔,围棋世界冠军李世石对阵DeepMind的AlphaGo。第二局第37手,AlphaGo下出了一步震惊所有人的棋——没有下在传统理论认为的主战场,而是落在棋盘中央。在场的人类顶级棋手纷纷认为是"失误"。直到20步后才意识到:这不是失误,这是一步超越了数千年人类围棋经验的创新落子。
AlphaGo以4:1获胜。这场比赛在YouTube上获得超过2.8亿次观看,全球第一次真正意识到AI的力量。
"它不像人类在下围棋——它像上帝。"
2017年6月:Transformer——改变一切的论文
Google研究团队发表了《注意力即一切》(Attention Is All You Need)。标题本身就是一种态度。当时NLP的主流是RNN/LSTM,按顺序处理文本。Google团队提出完全基于注意力机制的架构,每个词直接与句子中所有其他词建立关系——并行训练成为可能,速度提高数十倍。
这篇论文后来成为AI史上引用最多的论文之一。ChatGPT、DALL-E、AlphaFold——这些改变世界的系统的底层架构都是Transformer。
2018年:BERT 与 GPT——两条路
两个关键的大型预训练语言模型几乎同时诞生。Google的BERT——双向编码器,擅长理解文本,在11项NLP基准测试中创下新纪录。OpenAI的GPT——单向解码器,擅长生成文本。GPT-1只有1.17亿参数,在当时看来是个有趣但不够惊艳的实验。
2019年:GPT-2——"太危险了不能发布"
OpenAI训练了GPT-2(15亿参数),能在给定开头后续写出流畅文章。然后OpenAI宣布:"由于担心恶意使用,我们不会立即公开发布完整的模型。"这引发了关于AI安全的大规模讨论。"不发布"的声明本身也成为头条——批评者认为这是一种营销策略。
2020年5月:GPT-3——1750亿参数的震撼
GPT-3展现了令人惊叹的少样本学习能力:给它几个例子,它就能完成翻译、写代码、写诗、回答事实性问题——不需要微调。训练成本超过1000万美元。AI研究者开始认真讨论:如果一个更大的语言模型能展示出这种能力,我们还需要针对每个任务训练不同模型吗?
2022年11月30日:ChatGPT——产品遇见了时机
OpenAI发布了一个"研究预览"——ChatGPT。它是GPT-3.5的接口版本,经过了强化学习(RLHF)的微调。事情超出了所有人的预期。
五天内用户突破100万。两个月内月活跃用户达到1亿——历史上增长最快的消费者应用(TikTok用了九个月)。
🔥 ChatGPT 为什么引爆了?
ChatGPT不是技术上最强大的系统(GPT-4已经更强了),但它提供了一个完美的界面——一个对话框。不需要编程,不需要API,任何人都可以打字问问题。AI第一次变得"触手可及"。
2015-2020:从GAN到扩散模型
Goodfellow的GAN开启了AI生成图像的纪元。但GAN训练极不稳定。2015年Sohl-Dickstein等人提出扩散模型——先训练网络学习加噪到去噪的逆过程。2020年Jonathan Ho的DDPM让扩散模型变得实用:生成图像质量首次超越GAN,且训练稳定。
2022年:图像生成爆发年
4月,OpenAI发布DALL-E 2——一张"宇航员在阿尔法半人马座骑骏马"的图像成了这个时代最具辨识度的AI图像之一。
8月,Stable Diffusion开源发布——可以运行在消费者的显卡上。全世界数百万人第一次能够无需排队、无需付费就生成他们想象的任何图像。
同月,Midjourney v3因其独特的油画般审美迅速走红,"教皇穿羽绒服"、"特朗普被捕"等AI假图引发大范围传播。
2024年2月:Sora——AI让世界动起来
OpenAI发布Sora——文本到视频生成模型。给它一句描述,它能生成最长60秒的连贯视频,画面稳定,物体以合理方式移动。Sora对三维空间的理解暗示了一个更深层的可能性:一个如果能够正确预测视频中物理动态的模型,是否在隐式地"理解"了现实世界的因果结构?
人工智能的历史不是一条直线——它是一条螺旋上升的线,每一轮都经历从希望的高峰到失望的谷底,再在更坚实的技术基础上重新崛起。
| 年份 | 事件 | 团队 | 意义 |
|---|---|---|---|
| 1950 | 图灵测试提出 | Alan Turing | AI哲学奠基 |
| 1956 | 达特茅斯会议 | McCarthy等 | AI学科诞生 |
| 1958 | 感知机 | Rosenblatt | 首个神经网络 |
| 1969 | 《感知机》出版 | Minsky & Papert | → 第一次冬天 |
| 1986 | 反向传播 | Rumelhart, Hinton | 神经网络训练突破 |
| 1997 | 深蓝击败卡斯帕罗夫 | IBM | 下棋在人类之上 |
| 2006 | 深度信念网络 | Hinton | "深度学习"概念诞生 |
| 2012 | AlexNet | Krizhevsky, Sutskever | 深度学习引爆点 |
| 2014 | GAN | Goodfellow | 生成式AI诞生 |
| 2016 | AlphaGo vs 李世石 | DeepMind | AI攻克围棋 |
| 2017 | Transformer | 架构大一统 | |
| 2020 | GPT-3(1750亿参数) | OpenAI | 少样本学习震惊世界 |
| 2022.11 | ChatGPT发布 | OpenAI | AI的公众爆发时刻 |
| 2022.8 | Stable Diffusion开源 | Stability AI | 图像生成走向大众 |
| 2024.2 | Sora发布 | OpenAI | 文本到视频生成 |
📜 最后的话
从1936年图灵的那张设计图到今天无处不在的AI,八十多年的旅程告诉我们的最重要的一件事是——
人工智能的历史,不是技术的历史。是人如何理解自己智能的历史。
每一次突破,都让"智能"这个概念变得更微妙、更难以定义。图灵测试曾经是黄金标准,但今天没有人觉得ChatGPT通过了图灵测试就等于它有了"意识"。我们不断把"智能"的定义往后退——象棋不重要了,围棋不重要了,画图不重要了——退到只剩那些机器还做不到的事。
也许最终,AI最大的贡献不是造出更聪明的机器,而是让我们终于理解了什么是"人"。