ESC
输入关键词搜索文章
目录

人工智能编年史

从图灵到 ChatGPT · 1936 — 2024
一段关于思想、泡沫、寒冬与复活的螺旋叙事——每一次绝望之后,总有一条被遗忘的路通向未来
1956达特茅斯会议"AI"诞生
×2两次 AI 冬天
2012深度学习引爆
175BGPT-3 参数
1 亿ChatGPT 两月用户
Prologue · 序幕
一个问号,一张纸,一台机器
1936 — 1950

一切开始于一纸论文。

1936年,24岁的剑桥大学研究生艾伦·图灵发表了《论可计算数及其在判定问题上的应用》。在论文中,他构想了一个极其简单的抽象机器——一条无限长的纸带、一个读写头、一套有限的状态规则。这个"通用图灵机"可以计算任何可计算的问题。

这个想法原本是为了回答数学基础的问题(希尔伯特的判定问题),但它意外地为"机器能否思考"这个更古老的问题铺平了道路。如果一台极其简单的抽象机器能够计算任何逻辑上可计算的事情,那么智能所需的计算是否也只是某种特殊形式的符号操作?

1950年,图灵在《Mind》杂志上发表了那篇划时代的论文《计算机器与智能》。开篇他写道:

"我提议考虑这个问题:'机器能思考吗?'"

—— Alan Turing, Computing Machinery and Intelligence, 1950

他提出如果一台机器能够在远程对话中让人类无法区分它和真人,那么我们就应该认为它具有智能。这就是图灵测试。这篇文章奠定了AI的哲学地基。

Act I · 1956–1973
黄金年代
达特茅斯的夏天与第一次冬天前的狂欢
🏔️

1956年:AI的"出生证明"

1956年夏天,一场为期八周的工作坊在新罕布什尔州的达特茅斯学院举行。组织者是约翰·麦卡锡,参与者包括马文·明斯基、克劳德·香农、纳撒尼尔·罗切斯特等人。麦卡锡在提案中写下了被历史铭记的句子:

"我们提议在1956年夏天举行一场关于人工智能的工作坊……这项研究基于以下猜想:学习的每个方面或智能的任何其他特征,原则上都可以被如此精确地描述,以至于一台机器可以被制造出来模拟它。"

—— John McCarthy,达特茅斯会议提案,1955

这是"人工智能"这个术语第一次被正式使用。达特茅斯会议被后世视为AI的"出生证明"。

1958年:感知机的崛起

1958年,康奈尔大学的弗兰克·罗森布拉特发明了感知机——一台硬件实现的单层神经网络,能够学会对简单图案进行分类。《纽约时报》报道称这是一台"能思考的机器"。

罗森布拉特的乐观不是孤例。1960年代是AI的第一个黄金时代。MIT的AI实验室充斥着乐观主义。明斯基在1967年写道:"在一代人的时间内,创造'人工智能'的问题将基本解决。"

1969年:感知机的陨落——第一次冬天

1969年,明斯基和派珀特出版了《感知机》一书,用严格的数学证明单层感知机无法解决XOR这样简单的非线性分类问题。这本书的论证摧毁了资助者对神经网络的信心。政府资助迅速转向符号推理。与此同时,英国莱特希尔报告(1973)对AI做出严苛评价,导致英国AI研究资助大幅削减。

第一次AI冬天降临了。

Act II · 1980–2006
两次繁荣与两次冬天
专家系统·反向传播·深蓝·在谷底等待
❄️🔥❄️

1980年代:专家系统的黄金时代

AI找到了它的第一种"商业落地"形式——专家系统。MYCIN诊断血液感染疾病,XCON帮助DEC配置计算机系统,每年节省约4000万美元。日本政府发起雄心勃勃的"第五代计算机"计划。LISP机器公司如日中天。

1986年:反向传播的复兴

戴维·鲁梅尔哈特、杰弗里·辛顿和罗纳德·威廉姆斯重新发现了反向传播算法(backpropagation)——一种让多层神经网络能从错误中学习的方法。神经网络研究重新点燃了希望。

1987-1993:第二次AI冬天

专家系统暴露出根本缺陷——规则写不完、维护成本极高、无法处理未知情况。LISP机器市场崩溃,数百家AI初创倒闭。日本五代机计划悄无声息地终结。第二次冬天比第一次更冷、更长。

1997年:深蓝 vs 卡斯帕罗夫

1997年5月11日,IBM的深蓝在六局国际象棋比赛中以3.5比2.5击败世界冠军卡斯帕罗夫。这是计算机首次在正式比赛中击败人类世界冠军。但深蓝用的是暴力搜索——能下棋,但除此之外什么都不会。

2006年:深度学习概念的诞生

杰弗里·辛顿发表了关于深度信念网络的论文,提出逐层预训练方法训练深层神经网络。"深度学习"这个术语正式诞生。当时的AI学界仍对神经网络持怀疑态度——但辛顿实验室里的几个年轻人即将改变一切。

Act III · 2006–2017
深度学习革命
AlexNet · AlphaGo · Transformer——改变一切的十年
🧠⚡

2012年9月30日:AlexNet 的冲击

ImageNet挑战赛上,辛顿和他的两名学生亚历克斯·克里热夫斯基、伊利娅·苏茨克弗提交了一个八层卷积神经网络——AlexNet。结果令人震惊:AlexNet的top-5错误率为15.3%,而第二名的传统方法是26.2%。差距超过10个百分点——从马车到飞机的跨越。

💡 为什么 AlexNet 能赢?

三样东西的汇聚:ImageNet巨量数据(1400万张图)、GPU并行计算(两块GTX 580)、以及dropout等新训练技巧。每一环单独都不够,三者同时"造"了这场革命。

转年,辛顿被Google收购了他的公司DNNresearch。苏茨克弗参与创立的DeepMind更早被Google收购。深度学习之战已经打响。

2014年:GAN——酒吧之夜的天才念头

Ian Goodfellow回忆,2014年的一个晚上,他和朋友们在蒙特利尔一家酒吧讨论机器如何生成逼真图像。当晚回到住处后,Goodfellow在凌晨2点开始在笔记本上编码。12小时后,写出了一个可运行的——它成功了。

这就是生成对抗网络(GAN)——两个神经网络博弈:一个生成者(伪造图像)、一个判别者(判断真假)。这个"酒吧之夜"的实验后来被引用超过10万次。

2016年3月:AlphaGo vs 李世石——第37手

首尔,围棋世界冠军李世石对阵DeepMind的AlphaGo。第二局第37手,AlphaGo下出了一步震惊所有人的棋——没有下在传统理论认为的主战场,而是落在棋盘中央。在场的人类顶级棋手纷纷认为是"失误"。直到20步后才意识到:这不是失误,这是一步超越了数千年人类围棋经验的创新落子。

AlphaGo以4:1获胜。这场比赛在YouTube上获得超过2.8亿次观看,全球第一次真正意识到AI的力量。

"它不像人类在下围棋——它像上帝。"

—— 职业九段棋手 麦克·雷蒙,解说第37手时

2017年6月:Transformer——改变一切的论文

Google研究团队发表了《注意力即一切》(Attention Is All You Need)。标题本身就是一种态度。当时NLP的主流是RNN/LSTM,按顺序处理文本。Google团队提出完全基于注意力机制的架构,每个词直接与句子中所有其他词建立关系——并行训练成为可能,速度提高数十倍。

这篇论文后来成为AI史上引用最多的论文之一。ChatGPT、DALL-E、AlphaFold——这些改变世界的系统的底层架构都是Transformer。

Act IV · 2017–2023
大语言模型时代
BERT · GPT · ChatGPT——当全世界的屏幕都亮起来
💬🌐

2018年:BERT 与 GPT——两条路

两个关键的大型预训练语言模型几乎同时诞生。Google的BERT——双向编码器,擅长理解文本,在11项NLP基准测试中创下新纪录。OpenAI的GPT——单向解码器,擅长生成文本。GPT-1只有1.17亿参数,在当时看来是个有趣但不够惊艳的实验。

2019年:GPT-2——"太危险了不能发布"

OpenAI训练了GPT-2(15亿参数),能在给定开头后续写出流畅文章。然后OpenAI宣布:"由于担心恶意使用,我们不会立即公开发布完整的模型。"这引发了关于AI安全的大规模讨论。"不发布"的声明本身也成为头条——批评者认为这是一种营销策略。

2020年5月:GPT-3——1750亿参数的震撼

GPT-3展现了令人惊叹的少样本学习能力:给它几个例子,它就能完成翻译、写代码、写诗、回答事实性问题——不需要微调。训练成本超过1000万美元。AI研究者开始认真讨论:如果一个更大的语言模型能展示出这种能力,我们还需要针对每个任务训练不同模型吗?

2022年11月30日:ChatGPT——产品遇见了时机

OpenAI发布了一个"研究预览"——ChatGPT。它是GPT-3.5的接口版本,经过了强化学习(RLHF)的微调。事情超出了所有人的预期。

五天内用户突破100万。两个月内月活跃用户达到1亿——历史上增长最快的消费者应用(TikTok用了九个月)。

🔥 ChatGPT 为什么引爆了?

ChatGPT不是技术上最强大的系统(GPT-4已经更强了),但它提供了一个完美的界面——一个对话框。不需要编程,不需要API,任何人都可以打字问问题。AI第一次变得"触手可及"。

Act V · 2014–2024
AI学会了看、画和创造
GAN · 扩散模型 · DALL-E · Sora
🎨🎬

2015-2020:从GAN到扩散模型

Goodfellow的GAN开启了AI生成图像的纪元。但GAN训练极不稳定。2015年Sohl-Dickstein等人提出扩散模型——先训练网络学习加噪到去噪的逆过程。2020年Jonathan Ho的DDPM让扩散模型变得实用:生成图像质量首次超越GAN,且训练稳定。

2022年:图像生成爆发年

4月,OpenAI发布DALL-E 2——一张"宇航员在阿尔法半人马座骑骏马"的图像成了这个时代最具辨识度的AI图像之一。

8月,Stable Diffusion开源发布——可以运行在消费者的显卡上。全世界数百万人第一次能够无需排队、无需付费就生成他们想象的任何图像。

同月,Midjourney v3因其独特的油画般审美迅速走红,"教皇穿羽绒服"、"特朗普被捕"等AI假图引发大范围传播。

2024年2月:Sora——AI让世界动起来

OpenAI发布Sora——文本到视频生成模型。给它一句描述,它能生成最长60秒的连贯视频,画面稳定,物体以合理方式移动。Sora对三维空间的理解暗示了一个更深层的可能性:一个如果能够正确预测视频中物理动态的模型,是否在隐式地"理解"了现实世界的因果结构?

Epilogue · 尾声
冬天的种子,春天的预言
AI 历史的四条规律
🔄♾️

人工智能的历史不是一条直线——它是一条螺旋上升的线,每一轮都经历从希望的高峰到失望的谷底,再在更坚实的技术基础上重新崛起。

规律一
突破来自被低估的小角落。 感知机诞生时被《纽约时报》捧上天——十一年后连XOR都算不了。AlexNet参赛时被竞争对手当作"一顿操作猛如虎"——结果拉开十年变革大幕。
规律二
繁荣与冬天交替,周期无可避免。 "在一代人内解决AI"的承诺 → 过度失望 → 资助崩塌。今天的热潮是否也会经历类似下行?没有人知道——但历史总是在说:不要太乐观,也不要太绝望。
规律三
"更好的"AI来自完全不同的路线。 专家系统不能靠加更多规则变成神经网络。RNN不能靠变得更深变成Transformer。突破在于视角切换——不是在这条路上走更远,而是换一条路。
规律四
今天是最好的时机。 无论在哪个实验室的论文堆里、在哪个被冷落的研究方向上——今天被看作"不可能"或"没有用"的东西,可能正是明天改变世界的起点。
关键里程碑一览
年份事件团队意义
1950图灵测试提出Alan TuringAI哲学奠基
1956达特茅斯会议McCarthy等AI学科诞生
1958感知机Rosenblatt首个神经网络
1969《感知机》出版Minsky & Papert→ 第一次冬天
1986反向传播Rumelhart, Hinton神经网络训练突破
1997深蓝击败卡斯帕罗夫IBM下棋在人类之上
2006深度信念网络Hinton"深度学习"概念诞生
2012AlexNetKrizhevsky, Sutskever深度学习引爆点
2014GANGoodfellow生成式AI诞生
2016AlphaGo vs 李世石DeepMindAI攻克围棋
2017TransformerGoogle架构大一统
2020GPT-3(1750亿参数)OpenAI少样本学习震惊世界
2022.11ChatGPT发布OpenAIAI的公众爆发时刻
2022.8Stable Diffusion开源Stability AI图像生成走向大众
2024.2Sora发布OpenAI文本到视频生成

📜 最后的话

从1936年图灵的那张设计图到今天无处不在的AI,八十多年的旅程告诉我们的最重要的一件事是——

人工智能的历史,不是技术的历史。是人如何理解自己智能的历史。

每一次突破,都让"智能"这个概念变得更微妙、更难以定义。图灵测试曾经是黄金标准,但今天没有人觉得ChatGPT通过了图灵测试就等于它有了"意识"。我们不断把"智能"的定义往后退——象棋不重要了,围棋不重要了,画图不重要了——退到只剩那些机器还做不到的事。

也许最终,AI最大的贡献不是造出更聪明的机器,而是让我们终于理解了什么是"人"。