《天才制造者》(Genius Makers)深度记录了人工智能从边缘科学走向全球科技核心的波澜壮阔的历史。作者凯德·梅茨通过翔实的采访和细腻的叙事,描绘了以杰弗里·辛顿、严乐纯和约书亚·本希奥为首的科学家们,如何在数十年不被理解的孤独中坚持神经网络研究,并最终引发了深度学习革命。书里详细记录了谷歌、脸书、百度及OpenAI等巨头之间为了争夺顶尖人才而展开的疯狂竞购战,展现了AlphaGo战胜人类、大语言模型的崛起以及伴随技术而来的道德困境。这不仅是一部技术演进史,更是一部关于理想主义、金钱诱惑、权力博弈以及人类追逐通用人工智能(AGI)梦想的人文史诗。
2012年12月,内华达州太浩湖的哈拉赌场酒店内,一场极具荒诞感的秘密拍卖会拉开了现代AI军备竞赛的序幕。拍卖的对象并非房产或古董,而是一家名为“DNNresearch”的皮包公司,其全部资产仅包含深度学习先驱杰弗里·辛顿(Geoffrey Hinton)及其两名学生(亚历克斯·克里热夫斯基和伊利亚·苏茨克维尔),以及他们刚刚在ImageNet图像识别大赛中通过神经网络实现的突破性成果。
在这场跨越物理空间与数字终端的博弈中,百度、谷歌、微软及初创公司DeepMind展开了激烈的角逐。起拍价为1200万美元。百度表现出极强的志在必得感,迅速将价格推高至2000万美元;谷歌在拉里·佩奇的授意下紧咬不放;微软则因内部程序繁琐逐渐力不从心;DeepMind因财力匮乏最早出局。
随着竞标价以百万美元为单位跳动,辛顿在酒店房间内通过笔记本电脑见证了这场对其学术理想的资本定价。最终,当竞价飙升至4400万美元时,辛顿并非因为价格触顶,而是出于对学术环境和资源支持的考量,主动叫停了拍卖,选择了谷歌。这一刻不仅标志着神经网络从边缘科学跃升为大科技公司的核心战略,更确立了未来十年全球科技力量重组的基调:对顶级人工智能人才的掠夺式竞争。
“这在某种程度上是荒谬的。他们并没有在卖什么产品。他们卖的是一种可能性,以及能够将这种可能性变为现实的智慧。”
“辛顿和他的学生们并不是在出售一家公司。他们是在出售自己。他们正在把自己推向拍卖台,看看这个世界到底认为他们值多少钱。”
“这场拍卖会不仅仅是为了这三个人,它是为了人工智能的未来。谁拥有了这些人,谁就拥有了通往未来的钥匙。”
“当价格跳到4400万美元时,辛顿觉得足够了。他并不是想榨干这些公司的每一分钱。他想要的是一个能让他继续研究并改变世界的地方。”
现代人工智能的狂飙起源于一场长达半个世纪的边缘实验。20世纪50年代,弗兰克·罗森布拉特发明“感知机”,试图模仿生物神经元构建能学习的机器,却因无法处理复杂逻辑(如异或问题)而遭到明斯基等主流学界的毁灭性打击,导致AI进入数度“寒冬”。
在长达几十年的冷宫期,杰弗里·希顿(Geoffrey Hinton)成为这一思想最坚定的布道者。他坚信智能不应源于符号逻辑的预设规则,而应通过神经网络在大数据中自动习得特征。20世纪80年代,希顿与同事推广了“反向传播算法”(Backpropagation),为多层神经网络的训练提供了数学基础,但受限于当时匮乏的计算能力和数据量,神经网络依然被主流学界视为“伪科学”。
这一僵局在2012年被彻底打破。希顿及其学生通过AlexNet,利用英伟达的GPU算力和大规模数据集ImageNet,在计算机视觉大赛中以断层优势碾压所有传统算法。这场胜利证明了:只要层数够深、数据够大、算力够强,神经网络能解决人类无法用代码定义的复杂任务。随后,这场“边缘人的叛乱”迅速演变为科技巨头的军备竞赛,希顿的公司DNNresearch在内华达州的酒店套房内引发了谷歌、百度、微软、DeepMind的千万美元竞拍。这标志着深度学习从实验室的奇思妙想,正式跨越为全球工业界的核心引擎。
“希顿坚信,如果你想制造出一个智能系统,就必须模仿大脑。既然大脑是由神经元组成的网络,那么机器也应该如此。这种想法在当时听起来既疯狂又极其简单。”
“在几十年的时间里,神经网络研究者们就像是在经营着一个地下教派。他们被主流学术会议拒之门外,申请不到经费,甚至被同行嘲讽为在浪费生命。”
“2012年那个秋天的夜晚,当ImageNet竞赛的结果公布时,人工智能的世界分裂成了两半:一半是依然坚守传统方法的过去,另一半则是神经网络主宰的未来。”
“这场拍卖不仅是对一个算法的估值,更是对一种可能性的押注。各大科技公司意识到,谁掌握了希顿和他的思想,谁就掌握了通往通用人工智能(AGI)的门票。”
1958年,康奈尔大学的弗兰克·罗森布拉特发明了“感知机”(Perceptron),这种模拟生物神经元结构的简单机器引发了首波AI狂热,《纽约时报》曾预言它将能行走、说话并拥有意识。然而,1969年人工智能权威马文·明斯基和西摩·派珀特出版《感知机》一书,从数学上证明了单层神经网络连最基本的“异或”(XOR)逻辑问题都无法解决。这一结论像冷水一样浇灭了联结主义(Connectionism)的热潮,导致长达数十年的“AI寒冬”,学术界转而追逐基于逻辑和规则的“符号主义”。
在被主流学界边缘化的漫长岁月中,杰弗里·辛顿(Geoffrey Hinton)成了孤独的守望者。作为逻辑学家乔治·布尔的后裔,他坚信模拟大脑是通向真智能的唯一路径。1986年,辛顿参与发表的反向传播(Backpropagation)算法解决了多层神经网络的训练难题,但这并未立刻赢回业界的信任。由于在美国申请不到经费,辛顿移居加拿大,在加拿大高级研究所(CIFAR)的微薄资助下,于多伦多大学建立了一个学术避难所,汇聚了杨立昆(Yann LeCun)和约书亚·本吉奥(Yoshua Bengio)等志同道合者。当时,向主流期刊提交神经网络论文几乎等同于被拒,他们这群人被视为坚守“炼金术”的异教徒,直到互联网时代带来的海量数据与GPU算力的爆发,才让这颗在荒原中埋藏了半个世纪的种子破土而出。
“明斯基和派珀特不仅是指出感知机的局限性,他们实际上是宣判了这种研究方向的死刑。在接下来的十年里,几乎没有人敢在学术论文中提到‘神经网络’这个词,除非他不想拿到终身教职。”
“杰弗里·辛顿总是显得与众不同,他有着一种近乎偏执的信念。当其他人都在试图编写复杂的逻辑代码来告诉机器如何思考时,他却在试图建造一个能自己学习如何思考的‘大脑’。”
“在多伦多大学的那些年,他们就像是一群躲在地下室里的炼金术士。主流AI学界认为他们在浪费时间,但辛顿知道,只要神经网络足够深,只要数据和计算力跟上,世界终将改变。”
20世纪80年代至21世纪初,人工智能领域被“符号派”(Symbolic AI)统治,他们试图通过逻辑规则和人工编程来实现智能。杰弗里·辛顿(Geoffrey Hinton)则是“联结主义”(Connectionism)的异类信徒,坚信模仿人脑神经元结构的神经网络才是正途。尽管1986年他参与发表的反向传播算法(Backpropagation)为多层网络训练提供了可能,但由于算力匮乏和数据稀缺,神经网络在长达二十年的时间里被主流学界视为“伪科学”和“死胡同”。
辛顿出身于科学世家,其先祖包括逻辑学家乔治·布尔,这种血脉中的执拗让他对主流的嘲讽不屑一顾。因不满美国军方对研究的渗透以及学术环境对神经网络的排挤,他迁往加拿大,在加拿大高等研究院(CIFAR)的支持下,建立了一个被称为“神经计算与自适应感知”(NCAP)的避风港。他在多伦多大学守护着这团微弱的火种,吸引了约书亚·本希奥(Yoshua Bengio)和杨立昆(Yann LeCun)等志同道合者。
由于背部疾病,辛顿无法久坐,他常年站立着在白板前推演,这种身体上的磨难与他长期的学术孤立形成了某种互文。转机发生在2010年代初,随着大数据(ImageNet)和高性能算力(GPU)的出现,辛顿与其学生伊利亚·苏茨克维(Ilya Sutskever)和亚历克斯·克里热夫斯基(Alex Krizhevsky)开发的AlexNet在2012年ImageNet竞赛中以碾压性优势夺冠。这一刻,被放逐数十年的联结主义完成了一次史诗般的回归,直接开启了当今的大模型时代。
“辛顿从不打算通过模仿逻辑来制造智能。他想模仿大脑。他认为,如果你能建立一个像大脑一样运作的系统,逻辑就会作为一种副产品自然而然地产生。”
“在几十年的时间里,他就像一个在所有人都搬走后仍拒绝离开荒废城镇的信徒,他在废墟中修补着机器,坚信有一天电力会重新回来。”
“他不得不忍受身体上的痛苦——因为背伤,他无法久坐,只能在站立中思考和教书。但他似乎更习惯于学术上的孤独,对他来说,被大多数人认为是错误的,往往意味着他正在接近一个没人发现的真相。”
“当2012年ImageNet竞赛的结果公布时,差距如此之大,以至于这不再是一次简单的胜利,而是一次公开的‘处决’——那些坚持传统计算机视觉方法的人发现,世界在一夜之间变了样。”
20世纪80年代末,受生物视觉启发,严乐纯(Yann LeCun)在贝尔实验室(Bell Labs)发起了联结主义的激进实验。当时AI界普遍奉行基于规则的逻辑推理,而严乐纯坚持模拟生物神经系统的神经网络。在霍姆德尔实验室,他开发出卷积神经网络(CNN),即LeNet。其核心创新在于“局部感受野”和“权值共享”:网络不再孤立看待像素,而是通过滑动的过滤器识别重叠的视觉特征(如边缘、弧线),这极大地减少了参数量并赋予系统空间平移不变性。
1000号楼的演示成为了传奇:严乐纯向摄像头展示手写数字,LeNet在屏幕上实时、精准地识别出变体各异的字迹。贝尔实验室母公司AT&T随后将其商业化,通过子公司NCR将该技术部署于银行系统,处理了全美近20%的支票识别。然而,尽管技术卓有成效,严乐纯仍面临内部及学术界的严峻挑战。以弗拉基米尔·瓦普尼克(Vladimir Vapnik)为首的统计学派推崇支持向量机(SVM),认为神经网络缺乏严谨数学证明且难以训练。随着贝尔实验室的分裂与基础研究经费缩减,严乐纯被迫在“AI寒冬”中守护这一火种,直到十年后算力与大数据的爆发。
“严乐纯的卷积网络就像一个极其精密的漏斗。它在最底层捕捉图像的微小细节——一条横线或一个斜角,然后在更高层将这些细节拼凑成形状,最后是数字。这种结构模仿了人类视觉,而非仅仅是数学上的堆砌。”
“在霍姆德尔的走廊里,严乐纯是一个异类。当其他人还在试图通过编写成千上万行逻辑代码来告诉计算机什么是‘2’时,他只是站在摄像机前,给他的网络展示一堆手写的样张,然后说:‘看,这就是2。’”
“瓦普尼克坐在严乐纯对面,带着某种苏联式的冷峻和数学家的傲慢。对他而言,严乐纯的神经网络就像是一个没有说明书的炼金术黑盒,虽然它偶尔能变出金子,但无法在数学上证明它为什么不是一块废铁。”
2012年ImageNet挑战赛是人工智能史的“分水岭”。当时计算机视觉领域由“特征工程”主导,研究者耗费数十年手工编写识别边缘和形状的规则,但识别错误率停滞在25%以上。多伦多大学教授杰弗里·辛顿(Geoffrey Hinton)与其学生亚历克斯·克里热夫斯基(Alex Krizhevsky)、伊利亚·苏茨克维尔(Ilya Sutskever)利用深度神经网络(CNN)发起了降维打击。
核心突破在于:克里热夫斯基通过改写CUDA代码,将神经网络迁移至两块英伟达(NVIDIA)显卡上进行并行运算,这种硬件上的跃迁解决了神经网络长期以来由于算力匮乏而无法在大规模数据集(ImageNet)上训练的困境。他们的模型AlexNet不再依赖人工预设规则,而是直接从数百万张原始像素图中学习特征。比赛结果显示,AlexNet的错误率仅为15.3%,领先第二名近11个百分点,这种碾压级的优势令传统学术界感到窒息。这一突破不仅证明了神经网络的复兴,更开启了由大数据、超强算力和深度算法驱动的新AI时代,直接导致了工业界对这一三人团队的疯狂竞购。
“那是计算机科学史上的一个奇点。在那一刻,旧的世界消失了,一个新的世界诞生了。在那之前,几乎没人相信神经网络;在那之后,几乎没人不相信它们。”
“当比赛结果公布时,整个计算机视觉领域都感到了一阵寒意。差距不是百分之零点几,也不是百分之一,而是整整十个百分点。这在科学领域简直是闻所未闻的,就像是一个运动员在百米赛跑中不仅赢了,而且领先了对手三十米。”
“亚历克斯·克里热夫斯基坐在实验室里,两块游戏显卡在嗡嗡作响。他并没有像传统科学家那样去思考‘猫长什么样’,他只是在不断地向这个吞噬数据的怪兽喂食,直到它自己‘看’懂了这个世界。”
2012年底,深度学习的突破引发了科技史上罕见的权力重组。地理中心从多伦多大学实验室转移到塔霍河畔的拍卖场:杰夫·辛顿(Geoff Hinton)及其学生将其刚成立、甚至没有产品的公司DNNresearch进行秘密竞拍。百度、谷歌、微软及DeepMind展开角逐,价格从几百万美元一路飙升至4400万美元,最终谷歌凭借财力与辛顿的个人偏好胜出。这一事件标志着“人才即资产”时代的到来。
随后,战场转向伦敦的DeepMind。哈萨比斯(Demis Hassabis)利用巨头间的焦虑,在谷歌与Facebook之间玩起了杠杆游戏。扎克伯格为了追赶谷歌,甚至亲自在深夜造访研究员家中,并试图通过收购DeepMind来一举跨越技术断层。然而,哈萨比斯因担心Facebook的商业导向及对AI风险的忽视,最终选择了佩奇(Larry Page),条件是谷歌必须成立AI伦理委员会。
在这场疯狂的争夺战中,传统的公司规则被打破。为了招募到杨立昆(Yann LeCun)等顶级学者,Facebook被迫接受了“允许研究员继续保留教职”和“论文完全公开发表”的先例,彻底改变了企业科研的封闭模式。人才的身价水涨船高,顶级AI科学家的年薪迅速突破百万美元,甚至达到职业运动员的水平。与此同时,埃隆·马斯克出于对谷歌垄断AI力量以及对“邪恶AI”的恐惧,开始与奥特曼(Sam Altman)筹划成立OpenAI,试图通过开源和非营利模式对抗大公司的吞噬,硅谷的AI版图由此形成了多极对峙的雏形。
“这不仅是一场招聘,更像是一场对未来所有权的竞标。辛顿并不只是卖掉了一家空壳公司,他卖掉的是一个通往机器认知的入场券,而全世界只有几个人知道如何伪造这张票。”
“扎克伯格走进房间时,并没有带着合同,他带着的是一种紧迫感。他意识到,如果不把这些神经网络领域的先行者招致麾下,Facebook在下一个时代将只是一个没有灵魂的数据库。”
“在硅谷,人们对AI的恐惧分为两种:一种是担心它会毁灭人类;另一种更现实的恐惧是,竞争对手先一步掌握了它。”
“这是一场精英阶层的狂欢。如果你能证明自己懂卷积神经网络,你的薪水后面就会多出不止一个零,这种速度连华尔街的交易员都感到眩晕。”
2012年秋,多伦多大学教授杰弗里·辛顿(Geoffrey Hinton)与其学生亚历克斯·克里热夫斯基、伊利亚·苏茨克维尔(Ilya Sutskever)利用深度卷积神经网络在ImageNet竞赛中取得断层式领先。辛顿意识到神经网络时代的降临,但他并未选择传统的风险投资路径,而是成立了一家没有任何产品、仅有三名成员的“壳公司”——DNNresearch,并策划了一场足以载入史册的秘密拍卖。
拍卖地点设在内华达州太浩湖的哈拉赌场酒店。在那个简陋的房间里,辛顿通过电子邮件引导谷歌、微软、百度及刚起步的DeepMind进行竞价。这不仅是技术的博弈,更是人才价值的重塑。百度表现出极大的志在必得,开出了1200万美元的起拍价。随着竞价轮番上升,金额从2000万一路攀升至4000万美元。
微软因内部审批流程受限中途退出;百度则表现出令人惊叹的韧性,紧跟谷歌的步伐。然而,当竞价达到4400万美元时,辛顿主动叫停了拍卖。尽管百度仍有加价意愿,但辛顿意识到,这笔巨款已足以确保团队的财务自由,且他个人的偏好倾向于拥有更强研究底蕴和算力支持的谷歌。这场拍卖定义了AI时代的“人才溢价”规律:顶尖科学家不再是雇员,而是按稀缺资产定价的商业引擎。
“这在某种程度上是一场戏,”辛顿说。他知道这几家公司不仅仅是在竞标一项技术,他们是在竞标一个未来,竞标一种理解这个世界的新方式。
辛顿和他的学生们并不是在出售一家公司。他们是在出售自己。他们卖的是一种极为罕见的技能:能够让机器像人类一样看、听、说话和思考。
价格跳到了两千万美元、两千五百万美元。辛顿在酒店房间里看着邮件一封封跳出来,意识到他正在亲手毁掉学术界的某种纯粹性,但同时也正在为他的学生们创造一种前所未有的自由。
最终,在价格达到4400万美元时,辛顿发了一封邮件。他写道,他累了,想停下来。他选择了谷歌,并不是因为谷歌给的钱最多,而是因为他觉得在那里他能做最有意义的工作。
2013年,马克·扎克伯格意识到Facebook在深度学习领域已落后于谷歌。受谷歌收购Hinton团队的刺激,扎克伯格将AI视为公司未来十年的核心基石,旨在通过算法自动化处理日益庞大的社交数据。为填补技术鸿沟,Facebook启动了代号为“加勒比计划”的人才招揽行动。
扎克伯格亲自下场,在太浩湖的一场学术会议上与深度学习“三巨头”之一的杨立昆(Yann LeCun)深度对谈。当时杨立昆执教于纽约大学,对工业界的封闭研究环境持怀疑态度。为了赢得意中人,扎克伯格打破了Facebook传统的工程文化,接受了杨立昆极其苛刻的建组条件:实验室必须设立在纽约(方便其留任纽大)、实行彻底的学术开放主义(鼓励发表论文并开源代码)、允许研究员保留教职。
2013年底,Facebook人工智能实验室(FAIR)正式成立。这不仅是一次单纯的人才引进,更是Facebook从一家“快速行动、打破陈规”的黑客公司向科学驱动型企业的底层转型。扎克伯格通过赋予FAIR高度的独立性与学术自由,确立了工业界AI实验室的新范式:用最顶级的薪酬买断顶级的智力,但不剥夺他们改变世界的学术声誉。这一举动引发了随后数年硅谷对AI学术领袖的疯狂收割。
“扎克伯格意识到,如果不掌握这项技术,Facebook将无法处理每天上传到其服务器的数亿张照片,也无法预测用户想在信息流中看到什么。这不再是一个选择,而是一个生死存亡的问题。”
“杨立昆告诉扎克伯格,他不想去加州,他想留在纽约,留在学术界。扎克伯格没有犹豫,他不仅答应在纽约为他开办实验室,还允许他继续在纽约大学任教。这种对顶级天才的让步在当时的硅谷是罕见的。”
“FAIR的目标不是为了改进明天的产品,而是为了解决未来十年的问题。扎克伯格正在用金钱购买时间,试图通过这群科学家之手,让Facebook从一家社交平台进化为一家智能引擎公司。”
2013年后,深度学习的热潮从硅谷蔓延至北京。百度CEO李彦宏敏锐察觉到搜索业务正面临移动互联网与人工智能的双重质变,决定不惜代价在全球范围内抢夺顶级人才。百度在硅谷设立实验室,不仅是为了技术同步,更是为了建立对抗谷歌、脸书的“人才长城”。余凯等先行者的牵线下,百度瞄准了当时深度学习界的顶级流量——谷歌大脑共同创始人、斯坦福教授吴恩达(Andrew Ng)。
吴恩达的加入不仅是单一高管的入职,更是全球AI权力的权力移交象征。百度通过远超硅谷平均水平的薪资溢价和“数据无限量供应”的承诺,成功邀请吴恩达出任首席科学家,主持百度研究院。这一举动在当时震动了整个科技界,标志着中国互联网巨头从“跟随者”向“定义者”的转型。百度随之构建起包括深度学习研究院(IDL)在内的庞大矩阵,试图利用中国庞大、低成本且无缝连接的移动端数据,在自动驾驶、语音识别和翻译领域实现对谷歌的“弯道超车”。此时的中国,正以“中国速度”——即更短的决策周期、更疯狂的加班文化和海量的数据红利——重塑全球AI的竞争版图,宣告了人工智能双极世界的到来。
“对于百度来说,人工智能不仅仅是一种新技术,它是一种生存方式。如果百度不能在人工智能领域取得领先,那么在移动互联网时代,它将失去所有的优势。”
“吴恩达的加盟,向世界发出了一个明确的信号:北京已经准备好在定义未来的技术上与山景城一决高下。这不再是简单的模仿,而是核心力量的对撞。”
“在硅谷,人们讨论改变世界;在北京,人们在实现改变世界的过程中,连睡觉的时间都没有。这种极度的勤奋配合海量的数据,让深度学习的进化速度变得极其恐怖。”
“李彦宏意识到,代码是廉价的,真正昂贵的是那些能够理解并创造算法的‘天才大脑’。为了赢得这场战争,他必须支付前所未有的代价。”
2010年,哈萨比斯(Demis Hassabis)在伦敦创立DeepMind,其愿景直指“通用人工智能”(AGI)。哈萨比斯是集国际象棋神童、电子游戏开发者和神经科学博士于一身的跨界天才,他主张将人类大脑的运作机理(神经科学)与机器学习算法融合。DeepMind的核心武器是“强化学习”(Reinforcement Learning),这种方法让AI像生物一样,通过在环境中不断尝试与反馈(奖励或惩罚)来习得技能。
实验室的突破性时刻源于对Atari经典游戏(如《打砖块》)的攻克:算法在仅被输入原始像素和得分、且对游戏规则一无所知的情况下,通过自主试错,不仅掌握了游戏,甚至发现了“挖洞”绕后这种人类未曾预料的高级策略。这一突破证明了单一套算法处理多元复杂任务的潜力。
DeepMind的神秘感与这种跨学科的学术气息吸引了扎克伯格和佩奇的注意。2014年前后,Facebook与Google展开了激烈的收购竞夺。最终,Google以约5亿美元的价格胜出,部分原因在于哈萨比斯对公司独立性的坚持,以及他强制要求Google签署不将技术用于军事、并成立“人工智能道德委员会”的协议。DeepMind的加入,标志着大厂从“功能性AI”转向“雄心壮志型AI”的军备竞赛正式升级。
“哈萨比斯认为,如果能建立一个模拟人类大脑某些方面的系统,它就能学会做任何事情。这不仅是关于国际象棋或《打砖块》,这是关于寻找一种可以应用于现实世界中几乎任何问题的通用算法。”
“在《打砖块》中,经过几个小时的练习,系统发现了一个即便是人类专家也可能需要时间才能领悟的策略:它会在砖块的一侧挖出一个隧道,让球进入后方,从而在砖块和墙壁之间高速反弹,迅速刷分。”
“哈萨比斯和他的团队在加入Google时提出了一个前所未有的要求:他们要求成立一个人工智能道德委员会。他们担心自己的技术如果落入坏人手中或被用于不正当目的,可能会带来灾难性的后果。”
本部分记录了深度学习从“实验室奇迹”向“改变世界的力量”跨越的关键转折。以DeepMind被谷歌收购为起点,人工智能的竞赛从图像识别演变为对通用人工智能(AGI)的追逐。哈萨比斯领导的DeepMind通过强化学习让AI在《打砖块》等游戏中展现出超越人类的策略,并在2016年围棋人机大战中,凭借AlphaGo的“第37手”彻底击败李世石,证明了机器已产生某种令职业棋手恐惧的“直觉”。
与此同时,技术路径发生重要分叉:伊恩·古德费洛提出的生成对抗网络(GANs)让机器从“识别者”进化为“创作者”,能够伪造足以乱真的图像和人脸,开启了合成媒体时代。面对谷歌对顶级人才和算力的垄断,马斯克、奥特曼等人成立了OpenAI,试图通过开源和非营利模式制衡科技巨头。然而,随着AI在机器人控制、语言理解领域的突飞猛进,研究核心开始向AI安全性与伦理偏移——当机器开始在黑箱中自我进化,人类如何确保其目标与人类价值观对齐?这一阶段标志着AI不再仅仅是工具,而是一种具备不可预见性的新物种雏形。
“在那一刻,李世石起身离开了房间。他不得不离开。在场的所有职业棋手都目瞪口呆。没人预料到机器会下出那一手。这不仅仅是计算,这看起来像是……美。”(描述AlphaGo与李世石对局中的关键时刻)
“古德费洛坐在酒吧里,脑中闪过一个念头:如果让两个神经网络互相竞争呢?一个负责伪造,一个负责鉴别。在这个无止境的博弈中,它们将共同进化,直到假货变得比真货还要真实。”(关于GANs诞生瞬间的叙述)
“我们正处于人类历史上一个极其微妙的时刻。我们正在建造我们无法完全理解的系统,并赋予它们改变现实的力量。现在的关键不再是它能否工作,而是它将把我们带向何方。”(关于AI伦理与未来的深刻反思)
2010年,德米斯·哈萨比斯(Demis Hassabis)等人在伦敦创立DeepMind,其愿景是实现“通用人工智能”(AGI)。他们跳出传统的硬编码指令,试图融合深度学习(处理感知)与强化学习(处理决策)。关键突破在于“深度Q网络”(DQN):系统仅接收雅达利游戏的原始像素画面和分数,在没有任何人类规则输入的前提下,通过数千次的试错积累经验。在《打砖块》(Breakout)游戏中,系统不仅学会了击球,更演化出了一种令人震惊的“高级策略”——在砖块一侧挖掘通道,让球进入后方高速反弹得分。这一幕证明了AI具备在复杂环境中自主发现最优解的能力。这一技术跨越直接导致了谷歌以高价收购DeepMind,并开启了从“游戏智能”向“通用智能”迈进的新纪元。
“他们想做的不是教计算机玩游戏,而是教计算机‘学习’。哈萨比斯认为,如果一个系统能玩雅达利游戏,它就能做任何事情。这是一种通往通用智能的路径,一种可以让机器像人类一样解决各种问题的尝试。”
“在《打砖块》游戏中,由于系统被设定为最大化获取分数,它在经过几百次的练习后,突然发现了一个绝妙的策略:在砖块墙的一侧钻出一个通道,把球送入墙体后方。这样,球就会在墙后反复弹跳,迅速刷屏得分。实验室里的研究员们屏住了呼吸,他们意识到,这个程序已经不仅仅是在玩游戏,它正在‘思考’。”
“当拉里·佩奇在谷歌总部的会议室看到这个演示时,他沉默了片刻。他看到的不是一个玩游戏的小程序,而是一个可以应用于从能源调度到新药研发等任何领域的、能够自主学习和进化的通用逻辑引擎。”
2016年3月,DeepMind开发的AlphaGo在首尔对战传奇棋手李世石,这不仅是技术测试,更是人工智能进化史的转折点。DeepMind核心架构结合了深度学习(策略网络与价值网络)与蒙特卡洛树搜索,摆脱了传统暴力搜索的局限,赋予机器某种类人的“直觉”。
对局过程极具戏剧性:第二局第37手,AlphaGo在五路进行肩冲,这在人类数千年的棋谱中被视为弃子的低级错误,却在数十手后显示出对全局势力的超前掌控,打破了围棋界的教条。第四局第78手,李世石以凌厉的“挖”反击(神之一手),切中了AlphaGo神经网络在极端罕见局面下的评估盲区,导致机器产生“幻觉”并崩溃。然而,这唯一的胜利未能改写1
。此役标志着人工智能从“基于规则的程序”向“基于学习的生物特征模型”的彻底范式转移,不仅让李世石感到了机器深不见底的“非人感”,更在全球范围内(尤其是中国)触发了类似“斯普特尼克时刻”的技术狂热。“那一手棋(第37手)不仅是胜负的问题,它改变了我们看待世界的方式。它告诉我们,在这个我们已经研究了三千年的游戏里,还有一些极其美妙的东西是我们未曾察觉的。那一刻,它不仅仅是一台机器,它更像是一个从未来穿越回来的老师。”
“李世石坐在棋盘前,面对着一个看不见的对手。他不仅仅是在和一个程序比赛,他是在和人类历史上所有围棋高手的集体智慧以及一种完全异化的、超越感官的计算力量搏斗。他的每一次思考都显得那么孤独。”
“当AlphaGo开始疯狂乱下,将胜利拱手相让时,实验室里的科学家们意识到,他们创造了一个如此复杂以至于自己也无法完全理解的系统。它像人类一样强大,也像人类一样,在某些无法触及的神经元缝隙里,隐藏着荒诞的脆弱。”
2012年ImageNet挑战赛是人工智能史上的“斯普特尼克时刻”。此前,计算机视觉领域被基于手工编程、数学建模特征的传统算法统治,准确率停滞不前。Geoff Hinton及其学生Alex Krizhevsky、Ilya Sutskever构建了名为AlexNet的深度卷积神经网络(CNN),通过两块NVIDIA显卡进行的暴力训练,将图像识别错误率从26%史无前例地降低至15%。
这场胜利彻底推翻了工业界对神经网络的偏见。百度率先通过余凯意识到这一变革的潜力,随后谷歌、微软也迅速跟进。为了争夺这一技术高地,科技巨头们在塔霍湖畔的博览会期间展开了一场近乎荒诞的“抢人大战”。Hinton成立了一家没有产品、只有三名成员且刚成立几天的空壳公司DNNresearch,利用谷歌、微软、百度和DeepMind之间的竞争焦虑,组织了一场秘密在线拍卖。竞拍价格从数百万美元一路飙升,最终谷歌以4400万美元的高价胜出,将Hinton及其学生招致麾下。这不仅标志着深度学习在学术上的胜利,更开启了硅谷巨头通过并购垄断AI人才、重塑搜索与工业自动化版图的疯狂竞速。
“在计算机视觉领域,研究人员多年来一直试图通过人工编写极其复杂的指令来教机器识别物体,而Hinton的团队则证明了,只要给神经网络足够的数据和算力,它就能自己学会这些规则。”
“这场竞拍并非为了某项专利,也不是为了某种现成的产品,甚至不是为了一个成熟的公司。这仅仅是为了三个人,以及他们大脑中所蕴含的对未来的理解。”
“当Alex Krizhevsky提交他的竞赛结果时,其他参赛者都震惊了。这不只是一个微小的进步,这是一个巨大的断层,它告诉所有人:你们以前的方法都错了。”
“谷歌意识到,如果他们不买下这个团队,他们的对手就会买下。在那个时刻,4400万美元看起来像一笔巨款,但相比于失去AI未来的代价,这简直是捡了便宜。”
这一部分记录了AI战场从图像识别向自然语言处理(NLP)的战略转移,以及由恐惧和野心驱动的OpenAI的崛起。2014至2015年间,埃隆·马斯克因对拉里·佩奇“数字之神”愿景的恐惧,与萨姆·奥尔特曼联合创办了OpenAI。其核心叙事是人才的争夺:为了对抗谷歌的垄断,OpenAI通过提供“拯救人类免受AI威胁”的道德高地和极高薪酬,成功从谷歌大脑挖走了关键人物伊利亚·苏茨克维尔(Ilya Sutskever),这一举动被视为硅谷的“世纪大劫案”。
在技术路径上,语言取代图像成为皇冠上的明珠。从早期的Word2Vec到后来的Transformer架构,AI开始理解上下文语义而非简单的词频统计。OpenAI在格雷格·布罗克曼的工程化管理下,摒弃了学术界的琐碎研究,转而追求“大规模算力+大数据+通用算法”的暴力美学。这种范式转移导致了GPT系列的萌芽。然而,OpenAI的初衷(非营利、完全开源)与现实(昂贵的算力成本、与微软的深度绑定)逐渐产生裂痕。叙事终点揭示了一个悖论:为了保护人类而成立的开放组织,最终演变成了一个由巨额资本驱动、高度闭源的竞赛领导者。
“马斯克认为,如果人类建立了一个无法控制的数字超智能,后果将是毁灭性的。但佩奇认为那是进化的必然。他告诉马斯克,如果机器变得比人类更聪明,那又怎样?马斯克反驳说,人类的意识是宇宙中宝贵的闪光。佩奇则称他为‘物种歧视者’,即一个只偏袒自己生物物种的人。”
“当伊利亚·苏茨克维尔决定加入OpenAI时,这不仅是谷歌的损失,更是一次震动整个行业的‘叛变’。谷歌曾开出天价年薪试图留住他,但OpenAI提供的不仅是金钱,还有一个神话:你是为了全人类的利益在工作,而不是为了增加一家公司的广告点击率。”
“在OpenAI,人们开始相信一个极其简单的想法:如果你把足够多的算力投入到一个足够大的神经网络中,并给它足够多的数据,奇迹就会发生。这不再是关于编程技巧,而是关于‘规模’(Scaling)。”
“萨姆·奥尔特曼和格雷格·布罗克曼意识到,要实现通用人工智能(AGI),他们需要的资金不是几百万美元,而是几十亿甚至上百亿美元。这意味着他们最初那个‘非营利’的理想必须让位于残酷的商业现实。”
2016年以前,谷歌翻译采用的是基于词组的统计机器翻译(PBMT),其逻辑是将句子拆解为词碎片并查表匹配,导致译文生硬且充满语法错误。由杰夫·迪恩(Jeff Dean)领导的Google Brain团队决定用神经网络彻底颠覆这一现状。核心突破源于奎克·莱(Quoc Le)等研究员开发的“序列到序列”(Seq2Seq)模型:它不再孤立处理单词,而是将整个句子编码为一个高维数学向量,再解码为另一种语言。
这场变革并非一帆风顺,传统翻译团队起初对黑盒般的神经网络持怀疑态度。然而,实验结果极具震撼性:在短短几个月内,谷歌神经机器翻译(GNMT)系统在多种语言上的进步,甚至超过了此前十年的总和。2016年9月,系统上线,其在英汉翻译等领域的表现接近人类水平。更令研究者惊叹的是,系统展现出了“零样本翻译”(Zero-shot Translation)能力:即使没有直接的语言对训练数据,它也能通过内部形成的“通用语”(Interlingua)在全球化语言矩阵中自由穿梭。这标志着人工智能从逻辑规则走向了直觉化的大规模模式识别,彻底终结了程序员手动编写翻译规则的时代。
“在这一夜之间,谷歌翻译的改进程度甚至超过了它自诞生以来的所有进步总和。这种飞跃不是渐进式的,而是断裂式的。”
“机器不仅学会了翻译,它似乎还创造出了一种属于自己的、通用的中间语言。在神经网络的高维空间里,不同语言的同义词被聚集在一起,形成了一个跨越文化疆界的语义矩阵。”
“过去,我们需要成千上万行代码来定义语法规则;而现在,我们只需要给模型喂入足够的数据,剩下的工作,神经网络会通过自我调整来完成。我们不再教机器如何翻译,我们只是让它观察人类是如何交谈的。”
2015年,埃隆·马斯克与山姆·阿尔特曼在硅谷瑰丽酒店秘会,密谋建立一家能制衡谷歌(尤其是其麾下DeepMind)的AI研究机构。马斯克深陷“AI威胁论”,担忧拉里·佩奇正通过谷歌构建一个不受监管、可能毁灭人类的“数字上帝”。为打破谷歌对顶级人才的垄断,他们决定打出“非营利”与“开源”两张王牌,成立OpenAI,宣称其目标是造福全人类而非追求股东利润。
这场人才争夺战的核心是伊利亚·苏茨克维(Ilya Sutskever)。作为辛顿的高徒和谷歌大脑的核心,苏茨克维的倒戈极具标志性。尽管谷歌开出了数百万美元的天价薪酬(甚至在苏茨克维提出离职后又大幅加码),但他最终被马斯克“拯救人类”的宏大叙事所打动。OpenAI以硅谷的一座旧工厂为基地,迅速集结了格雷格·布罗克曼及多位顶级研究员。虽然最初标榜完全透明和代码开源,但面对AGI(通用人工智能)的巨大潜力和高昂的研发成本,OpenAI从诞生之日起就隐藏着理想主义与现实竞争之间的裂痕:为了超越谷歌,它必须像商业巨头一样贪婪地吞噬算力和数据。
“马斯克担心,如果谷歌的AI研究取得成功,拉里·佩奇将拥有掌控世界的力量。他认为佩奇虽然本意良好,但他本质上是一个‘数字上帝’的信徒,而这种信徒往往会忽略人类这种生物的微小需求。”
“对于这些研究人员来说,OpenAI 提供的不仅仅是金钱,而是一种‘纯粹’。在一家非营利机构工作,意味着他们可以追求最先进的技术,而不必担心这些技术是否能增加点击率或优化广告投放。”
“当伊利亚·苏茨克维决定离开谷歌时,谷歌立刻给他开出了比之前高出数倍的薪酬方案,其数额之大令即便是在硅谷见惯了大世面的人也感到震惊。但这不再仅仅是关于钱的战争,而是关于谁将定义人类未来的战争。”
“OpenAI 的成立宣言是一份理想主义的檄文,它宣称:‘我们的目标是以最可能造福全人类的方式推进数字智能,不受追求财务回报的约束。’然而,在这个领域,理想主义的成本是每年数亿美金的算力账单。”
在图像识别取得突破后,谷歌大脑(Google Brain)将目光投向了人工智能的圣杯:语言。早期尝试始于托马斯·米科洛夫(Tomas Mikolov)开发的 Word2vec,他通过向量化技术证明,词语间的逻辑关系(如“国王-男人+女人=女王”)可以被数学精准捕捉,这为机器理解语义奠定了数值基础。随后,伊利亚·苏茨克维尔(Ilya Sutskever)提出了更具野心的 Seq2Seq(序列到序列) 理论:他主张不再针对特定语法规则建模,而是将语言视为一种纯粹的数据流转换。
真正的转折点发生在谷歌翻译(Google Translate)的重构中。当时,传统的基于统计的机器翻译(PBMT)已触及天花板。奎克·黎(Quoc Le)与伊利亚合作,利用深层神经网络尝试捕捉“思想向量(Thought Vectors)”——即在不考虑具体语种的情况下,将句意抽象为多维空间中的坐标点。尽管当时学术界对这种“黑盒”方法持怀疑态度,认为它忽略了语言的结构逻辑,但实验结果令人震惊:神经网络不仅在翻译质量上实现了跨越式提升,甚至展现出了一种原始的、能够跨语种迁移的理解力。这一阶段的尝试验证了一个核心假设:只要模型足够大、算力足够强、数据足够多,机器就能从海量文本中自行“领悟”人类语言的复杂规律。
“如果能够将一个句子的意思映射成一组数字,那么你就能让机器在这些数字上进行运算,就像在做加减法一样。”
“伊利亚·苏茨克维尔意识到,如果给神经网络提供足够多的数据,它就能学会在没有任何人类指导的情况下,自行从一种语言转换到另一种语言。这不仅是翻译,这是对思维本质的模拟。”
“当时,资深的语言学家们对此嗤之以鼻,他们认为不理解语法的机器永远无法真正‘说话’。但神经网络用一种简单粗暴的方式回击了这种傲慢:它不在乎规则,它只在乎模式。”
随着人工智能从实验室走向全球应用,科技巨头与理想主义间的裂痕深度割裂。谷歌陷入“Maven项目”风暴,因向五角大楼提供无人机影像识别技术引发数千名员工请愿,最终导致公司放弃续约并发布《AI原则》,标志着硅谷“不作恶”时代的终结。与此同时,DeepMind与谷歌总部的关系恶化,哈萨比斯试图通过建立独立道德委员会来维持DeepMind的自治权,却在谷歌的利润压力下节节败退。
冲突的核心转向了“语言模型”的潜在危害。蒂姆尼特·格布鲁(Timnit Gebru)和玛格丽特·米切尔领导的“伦理AI团队”通过论文《随机鹦鹉的危险》对大模型提出质疑,指出其能源消耗巨大、加剧偏见以及由于缺乏真实理解而导致的虚假输出。谷歌高层认定该论文威胁其核心商业利益(如搜索和广告模型),强制格布鲁撤稿。在拒绝妥协后,格布鲁被解雇,引发了AI学界的剧震,彻底揭露了企业利益对学术研究的干预。与此同时,OpenAI从最初标榜的“非营利/透明”转向与微软深度结盟的封闭模式,AI竞赛的重心从造福人类彻底转向了对计算权力和市场占有率的殊死搏斗。
“当人工智能走出研究实验室,进入现实世界时,它不再仅仅是数学和代码的集合。它变成了关于人的问题——关于谁拥有权力,谁被排斥,以及谁决定未来的走向。”
“谷歌曾经是程序员们的乌托邦,在这里你可以挑战权威。但Maven项目证明了,当涉及数十亿美元的政府合同和地缘政治影响力时,这种民主只是一种幻觉。”
“格布鲁的离开不仅仅是一次人事变动。它向整个AI界发出了一个寒冷的信号:你可以研究AI的风险,但只要你开始指责这些风险正深植于公司的核心产品中,你就越线了。”
“我们正在构建的这些大型语言模型,本质上是随机鹦鹉。它们能拼凑出听起来极具说服力的语言,但它们并不理解自己在说什么,更不在乎这些话语可能造成的社会伤害。”
2017年,Google Cloud CEO 戴安·格林为了追赶亚马逊的云市场份额,秘密与美国国防部签署代号为“Project Maven”的合同,利用算法自动识别无人机监控视频中的物体。这起交易在内部引发了严重的意识形态地震。以李飞飞为代表的AI顶尖科学家虽出于商业合规考虑配合,但在私下邮件中极度担忧“武器化AI”的标签会损毁Google的品牌形象。
消息曝光后,Google内部“理想主义”与“商业扩张”的冲突爆发。数千名员工联署抗议,数十名工程师辞职,核心矛盾在于:标榜“不作恶”的技术巨头是否应成为“战争机器”的一部分。DeepMind创始人苏莱曼等关键人物也加入抵制,担心AI演变为全自动杀人工具。尽管高管试图以“仅提供非战斗技术”辩解,但员工认为这是掩耳盗铃。最终,在舆论与内部倒戈的压力下,皮查伊宣布不再续约Maven项目,并出台《AI准则》,禁止将AI用于攻击性武器。这一事件不仅重塑了Google的企业边界,也划定了全球AI伦理争议的初版红线,同时拉开了硅谷科技巨头与华盛顿国防建制派之间微妙而紧张的权力博弈。
“我们不能逃避这一讨论。这事关 Google 是什么样的公司。如果我们不能在此时此刻划清界限,下一次会是什么?我们是在建设用来杀人的系统吗?” —— 一位匿名工程师在内部交流平台上留下的抗议文字。
“一定要不惜一切代价避免提到或讨论任何关于 AI 的话题。机器学习在军事上的应用是极其敏感的……这是给媒体准备的红肉,他们会用各种方式将其解读为 Google 正在秘密制造武器。” —— 李飞飞在发送给同事的内部邮件中,警示 Maven 项目可能带来的舆论风险。
“皮查伊的《AI准则》本质上是一份停战协议。它试图在激进的抗议者、追求利润的高管、以及要求技术支持的五角大楼之间寻找一个不可能的平衡点。” —— 凯德·梅茨对 Google 最终妥协方案的定性描述。
2020年末,谷歌人工智能领域的标志性人物提姆尼特·格布鲁(Timnit Gebru)因一篇名为《随机鹦鹉》(Stochastic Parrots)的论文被要求撤稿,最终演变为极具破坏性的解雇风波。格布鲁与玛格丽特·米切尔主导的“道德AI”(Ethical AI)团队,从内部审视谷歌核心技术LLM(大语言模型)的阴暗面:巨大的碳足迹、训练数据中根深蒂固的人类偏见,以及模型对真实理解的缺失——它们只是极其擅长模仿的“随机鹦鹉”。
冲突的本质在于企业利益与学术诚信的结构性矛盾。谷歌资深副总裁杰夫·迪恩(Jeff Dean)认为该论文评审质量不合格且忽略了当时最新的正面研究,要求格布鲁撤稿或除名。格布鲁通过内部邮件向“谷歌大脑女性与盟友”小组控诉公司对多元化的虚伪态度,并提出若不透明化论文评审过程则离职。谷歌随即以“接受辞职”为由封禁其账号,切断其访问权限。这一举动引发了两千多名谷歌员工及数千名学术界人士的联名抗议。随后,联合负责人米切尔因试图寻找格布鲁被解雇的证据被开除,整个伦理团队几近瓦解。这场风波彻底撕碎了谷歌“研究自由”的幻象,揭示了大型科技公司在追求AGI(通用人工智能)过程中,对异议者和潜在声誉风险的零容忍。
“当格布鲁谈到大型语言模型时,她不仅是在谈论技术。她是在谈论权力——谁拥有它,谁在使用它,以及它对那些不在房间里的人造成了什么样的伤害。”
“谷歌曾经承诺过一个不同的世界,在这个世界里,真理是不受商业利益束缚的。但随着AI变得越来越重要,这种承诺开始变得像是一种营销手段,而非一种原则。”
“这些模型就是‘随机鹦鹉’。它们并不理解它们在说什么;它们只是在根据从互联网上抓取的万亿级词汇,预测下一个词出现的概率。但这种模仿是如此逼真,以至于人类会赋予它们本不存在的智慧和意图。”
“杰夫·迪恩的邮件在公司内部引起了震动。对于许多研究人员来说,这不再仅仅是关于一篇论文的争议,而是关于谷歌灵魂的争夺战:它到底是一家鼓励探索真相的实验室,还是一家仅仅在乎其技术形象的广告公司?”
随着深度学习从实验室走向全球基础设施,神经网络的致命缺陷——“不可解释性”与“数据偏见”引发了剧烈震荡。2015年,Google Photos将黑人标记为“大猩猩”,这并非孤立的程序错误,而是深度神经网络底层逻辑的必然产物:系统仅能从有限且具有偏向性的训练数据中提取统计规律,却不具备人类的常识或道德观。这种“黑盒效应”意味着,即使是神经网络的架构师,也无法确切解释模型内部数十亿个参数如何协同得出特定结论。
这种阴暗面在社会治理中演变为系统性歧视。Joy Buolamwini等研究者揭示,主流人脸识别系统对深色皮肤女性的误报率极高,因为训练集大多由白人男性构成。当这种存在偏见的算法被应用于量刑预测(如COMPAS系统)或简历筛选时,它会固化并放大历史性的种族与性别歧视。科技巨头陷入了悖论:他们追求规模化部署以获取利润,却无法在底层修复神经网络的黑盒特质。这一章揭示了AI竞赛中被忽视的伦理成本:当人类将决策权移交给不透明的机器时,算法不仅继承了人类的偏见,更因其“数学客观性”的伪装而变得更加难以问责。
“神经网络不是根据逻辑规则运作的。它们通过识别海量数据中的模式来学习。如果你给它们的数据中充满了人类的偏见,它们就会学会这些偏见。而最糟糕的是,你甚至不知道它们已经学会了,直到它们在现实世界中造成伤害。”
“我们创造了一个我们无法完全理解的系统。即使是像杰弗里·辛顿这样的人,也无法确切地指出神经网络内部的哪一个连接导致了特定的判断。它是一个黑盒,而我们正打算把整个社会的运行逻辑都塞进这个黑盒里。”
“偏见并不只是一个技术漏洞,它是数据的一面镜子。如果我们不解决社会层面的不平等,我们的技术只会成为这种不平等的加速器。”
这一部分聚焦于AI领域从特定任务(如图像识别、围棋)向通用人工智能(AGI)跨越的终极追寻。DeepMind通过AlphaZero实现了范式转移:它摒弃了人类棋谱,通过“白板”状态下的自我博弈,在数小时内超越了人类数千年的智慧沉淀,证明了强化学习在无人类经验引导下产生“直觉”与“创造力”的可能性。
与此同时,OpenAI经历了从“非营利理想主义”向“算力霸权”的痛苦转型。为了获得支撑巨大算力需求的资金,OpenAI转型为“封顶营利”公司并接受微软巨额投资。其核心驱动力源于对“规模定律”(Scaling Laws)的信仰:通过不断扩大的神经网络参数、海量文本数据及庞大算力,GPT系列模型展现出了超出预期的涌现能力(Emergence)。
行业内部对通往AGI的路径产生了剧烈分歧。里奇·萨顿(Rich Sutton)提出的“苦涩的教训”成为核心逻辑:试图将人类知识手动编入AI的努力最终都会失败,唯有大规模计算才是长久之计。然而,杨立昆(Yann LeCun)对此持有异议,认为现有的自监督学习缺乏对物理世界的真实理解。在通往终点线的迷雾中,科学家们既是造物主,也是心怀畏惧的旁观者,他们意识到AGI的到来可能不再是一个“是否”的问题,而是一个“何时”的问题。
“AlphaZero 不再像以前的程序那样表现得像个计算器。它表现得像是有灵感。它走出的棋招不仅是正确的,更是美丽的。”
“在AI发展的漫长岁月中,研究人员总是试图将他们对世界的了解灌输给机器。但最终,正如里奇·萨顿所言,‘苦涩的教训’告诉我们:唯一真正起作用的是给机器更多的算力和更多的数据。”
“我们正在建造的可能不仅仅是一个工具,它可能是一个能够自我进化的物种。这让人们感到不安,因为历史上从未有过造物主能完全掌控比自己更聪明的后代。”
“OpenAI 的转变揭示了一个残酷的现实:通往 AGI 的道路是由硅片和电力铺成的,而这两者都需要天文数字般的金钱。”
这一章节深入探讨了深度学习崛起后,关于“通用人工智能(AGI)”的狂热愿景与现实裂痕之间的博弈。以DeepMind创始人德米斯·哈萨比斯(Demis Hassabis)为核心,AGI被描绘为一种能像人类一样学习任何智力任务、甚至超越人类的“主算法”。DeepMind的崛起将AGI从科幻推向资本中心,AlphaGo的胜利被视为通往AGI的里程碑,引发了关于“奇点”临近的全球焦虑。
然而,争论在两个维度展开:一是技术路径的虚实。杨立昆(Yann LeCun)等务实派指出,当前的深度学习本质上是模式识别,缺乏对物理世界的常识认知和因果推理,所谓的“智能”极具脆弱性且依赖海量数据。二是生存威胁的幻象。以埃隆·马斯克(Elon Musk)为首的“末日论者”担心AI会像超级物种一样取代人类,而拉里·佩奇(Larry Page)则倾向于将其视为进化合力的自然结果,甚至嘲讽马斯克为“物种歧视者”。这场争论揭示了AI界的深刻分裂:AGI究竟是亟待解决的科学终点,还是科技巨头为了吸纳人才与资本而编织的营销幻象?它不仅关乎技术可能性,更关乎人类对“智能”定义的傲慢与恐惧。
“哈萨比斯向谷歌的高管们推销了一个愿景:DeepMind 不仅仅是在开发人工智能,它正在开发‘人工智能的阿波罗计划’。其目标不是解决特定任务,而是构建一套能够学习做任何事情的系统。”
“杨立昆并不买账。他认为‘通用人工智能’这个词带有误导性。智能从来不是通用的,人类的智能也是高度专业化的,我们只是恰好在人类擅长的领域表现出色。他更愿意谈论‘人类水平的人工智能’,并强调如果不解决‘常识’问题,这一切都是空中楼阁。”
“埃隆·马斯克对人工智能的恐惧是真诚且偏执的。他在与拉里·佩奇的争论中指出,如果不建立安全机制,我们可能正在‘召唤恶魔’。而佩奇反驳道,如果人工智能变得比人类更聪明,那也只是进化的下一阶段,为什么要厚此薄彼?”
“在实验室的墙壁内,AGI 是一个激励人心的目标;但在实验室外,它变成了一个巨大的幻象,让公众相信这些机器拥有它们实际上并不具备的意识和意图。”
这场关于人工智能的权力战争,始于2012年太浩湖畔哈拉斯赌场的秘密拍卖。杰弗里·辛顿(Geoffrey Hinton)以其创办的一家空壳公司为筹码,引发了Google、百度、微软及初创公司DeepMind的疯狂竞标。最终Google以4400万美元的高价胜出,这不仅是对“深度学习”算法的收购,更是巨头对稀缺智力资源的“圈地运动”。
科技巨头通过两种路径构筑垄断:第一,对人才的极限收割。 深度学习的成功让掌握神经网络的顶尖学者从清贫的学术界被卷入硅谷。由于顶级人才的稀缺性,巨头们不仅支付数百万美元的年薪,更通过收购初创公司的方式“整体搬迁”实验室(如Google收购DeepMind,Facebook招募勒昆)。第二,对算力和数据的极端依赖。 随着模型规模指数级增长,训练成本从数千美元飙升至数千万甚至上亿。只有掌控着大规模服务器集群和海量用户数据的Google、Facebook和微软,才能参与这场名为“前沿研究”的豪赌。
这种垄断产生了一个悖论:虽然算法逻辑往往是开源的,但由于缺乏算力和数据,中小型玩家和学术机构在实质上失去了竞争门槛。甚至连旨在打破垄断、保障AI安全的OpenAI,最初也是在马斯克等人对Google“过度权力”的恐惧中诞生的。然而,讽刺的是,为了维系昂贵的研发成本,这些对抗垄断的力量最终也不得不倒向资本与巨头,形成新的权力闭环。科技巨头不仅垄断了现在的市场,更通过提前控制AI这一“通用目的技术”的底层解释权,垄断了通往未来的可能性。
“这场拍卖标志着一个新时代的开始。自此以后,研究人员的价值不再仅仅取决于他们的论文发表数量,而是取决于他们将这种技术转化为利润的能力。而这些利润,只有极少数几家公司能够实现。”
“在硅谷,人们开始意识到,谁控制了最好的人工智能人才,谁就控制了互联网的未来。而这种控制权,正在以每年数百万美元的支票被迅速签发和兑现。”
“拉里·佩奇(Larry Page)相信,如果人工智能注定要发生,那么它最好发生在Google内部。他认为自己是那个能带领人类走向超智能化未来的人。但在伊隆·马斯克看来,这正是最让他恐惧的场景:一种由单一实体控制的、不透明且无孔不入的绝对权力。”
“AI 的发展正在产生一种‘万有引力’,它将所有的资源、注意力和权力都拉向那几个拥有最大服务器农场的质点。这种引力如此强大,以至于没有任何初创公司或大学能够逃逸。”
本章是对深度学习近十年激荡史的终极反思。故事从杰夫·辛顿等人在学术边缘的孤守,演变为科技巨头(谷歌、Facebook、OpenAI)对人才与算力的病态垄断。核心矛盾由“技术可行性”转向“技术权力”:当神经网络从实验室的玩具变成全球基础设施,其不可解释性与造物主的偏见随之放大。
书中通过谷歌伦理团队负责人蒂姆尼特·格布鲁(Timnit Gebru)的离职事件,揭示了商业利益与科研良知间的深层断裂。曾经致力于“造福人类”的天才们,正身处自己亲手制造的困境中——即便像辛顿、哈萨比斯这样的领军人物,也无法完全掌控算法的暗箱与地缘政治对AI的利用。最终,这场由少数精英发起的革命,不仅重塑了计算的本质,更让全人类被迫适应一个由数学概率主导、且带有造物主性格缺陷的新世界。
“这些制造天才的人们——以及他们制造出的机器——在试图解决世界问题的同时,也制造了新的问题。他们是不可救药的乐观主义者,但也正因为这种乐观,他们往往忽略了路上的坑洼。”
“在硅谷,‘改变世界’是一句口号,但对于AI的创造者来说,这是一个不争的事实。他们不仅改变了我们与机器沟通的方式,也改变了权力的定义:谁拥有最好的算法和最多的数据,谁就拥有了定义未来的权力。”
“杰夫·辛顿曾认为神经网络是理解人类心智的钥匙。但最终,他发现自己制造出的东西,更像是一面扭曲的镜子,映射出我们这个物种所有的光辉与卑劣。”
深度学习的崛起是一场从“异端”到“正统”的范式革命。在20世纪末到21世纪初的长达数十年间,联结主义(Connectionism)和神经网络由于计算力不足及理论瓶颈,被主流学术界视为死胡同。杰夫·辛顿及其团队的关键作用在于其“偏执般的坚持”与“实证性的突破”。辛顿通过改进反向传播算法,并在“AI寒冬”中持续培育人才(如伊利亚·苏茨克维和亚历克斯·克里热夫斯基),为爆发积蓄了力量。
真正的转折点发生在2012年的ImageNet竞赛。辛顿团队凭借AlexNet模型,利用GPU显卡的算力和大数据集,以压倒性优势击败了传统计算机视觉算法。这次胜利直观地证明了:只要层数足够深、数据量足够大,神经网络能够自发从原始数据中学习特征,而无需人工设计规则。这一事件彻底扭转了学术界的偏见,促使工业界意识到神经网络是通往感知智能的唯一可行路径,从而开启了由大数据和算力驱动的现代AI时代。
2012年辛顿及其两名学生通过一场非正式的“邮件拍卖会”,引发了谷歌、微软、百度和尚未成立的DeepMind之间的竞价,最终谷歌以4400万美元的高价将其收入麾下。这一事件是AI史上的分水岭,标志着人才价值的重新定义和权力的战略转移。
首先,这场“拍卖”打破了学术界的宁静,顶级科学家不再仅仅是论文作者,而是成为了掌握未来核心资产的“摇滚明星”。其次,它引发了人才从高校向大型科技公司的剧烈流失(Brain Drain),导致学术界在尖端算力和海量数据支持的研究上逐渐落后于工业界。最深远的影响是,AI研发的驱动力从政府资助、纯理论探索转向了由商业利润和计算资源主导的竞赛。由于工业界掌握了实现大型模型所需的“数字炼金术”资源(昂贵的计算集群和独家用户数据),人工智能的定义权和进化节奏从此由硅谷巨头主导,学术界转而扮演理论验证和人才培养的辅助角色。
这一争论反映了关于“智能本质”的底层哲学对立:即智能是源于“自上而下”的逻辑演绎,还是“自下而上”的统计涌现。
以马文·明斯基等为代表的传统路径(符号主义/GOFAI)认为,智能可以通过人类已知的逻辑规则和符号表征来建模。这种哲学倾向于认为思维是透明的、可解释的逻辑体系。然而,辛顿等倡导的联结主义(Connectionism)则模仿大脑神经元结构,主张智能应从海量数据的模式识别中自然涌现。这种哲学认为智能是“不可言传”的,其核心不在于预设的规则,而在于学习的能力。
这种分歧在通往AGI的道路上表现为:传统派认为AI必须理解常识和逻辑才能具备智慧,而联结主义派则坚信通过增加参数规模和计算量,机器能够产生超越人类逻辑边界的复杂行为。随着深度学习的成功,这种争论演变为对“黑盒”智能的接受与不安——即我们是否可以接受一个虽然强大但人类无法完全解析其决策机制的智能实体。
DeepMind通过将深度学习(感知能力)与强化学习(决策能力)相结合,打破了机器只能执行特定、重复性任务的刻板印象。其核心突破在于实现了“通用性”的初步验证。首先,通过DQN算法在没有任何先验知识的情况下精通多款雅达利(Atari)游戏,DeepMind向世界证明了AI可以像人类一样通过“试错”和“视觉反馈”来学习复杂技能。随后,AlphaGo在围棋这一曾被认为计算机几十年内无法攻克的领域击败李世石,不仅展示了AI在处理海量搜索空间时的直觉化决策能力,更通过“神之一手”展示了超越人类传统逻辑的创造性。这种从“识别模式”到“制定策略”的跃迁,让科技界意识到通向通用人工智能(AGI)的路径是可行的,促使AI的定位从辅助工具转变为能够解决科学难题(如蛋白质结构预测)的超级智能。
在《深度学习革命》(Genius Makers)中,科技巨头对伦理冲突的处理表现为一种“理想主义研究员与实用主义商业利益”之间的持续拉锯。一方面,为了平息内部员工的抗议和外部舆论压力,巨头们成立了专门的伦理委员会并发布AI准则(如Google在Project Maven事件后退出了五角大楼的军事项目并发布AI原则)。然而,这种处理方式往往具有滞后性和表面性。当深度学习模型的偏差(如种族歧视)或研究成果可能损害公司核心商业利益(如搜索业务的可靠性)时,企业往往会选择压制批评性声音,这集中体现在Timnit Gebru等伦理专家的离职风波中。本质上,巨头们在尝试建立一种“自律”机制,但由于缺乏外部强有力的监管约束,技术研发的冲动和对全球竞争的焦虑往往会盖过对道德伦理的深度反思。
数据和算力在这一轮革命中从“辅助资源”转变为“核心燃料”,彻底改变了AI的研究范式。神经网络的复兴本质上是规模效应的胜利:只有当海量数据(如ImageNet)与强大的并行计算能力(如GPU、TPU)结合时,深度学习的潜力才得以释放。这种对重资产的依赖导致了资源的极端集中化。首先,这造成了学术界与工业界之间的失衡,顶尖人才和研究前沿向拥有超算集群的大型科技公司倾斜,大学实验室逐渐边缘化。其次,在国际竞争层面,AI竞争演变为一场关于芯片供应链和数据主权的“军备竞赛”。这种资源集中的趋势提高了进入门槛,形成了强烈的马太效应,使得只有极少数公司和国家能够主导大模型的迭代,从而在全球范围内确立了技术和经济的准垄断地位。
《天才制造者》揭示了三家巨头在人工智能初期由于愿景、基因和人才抢夺策略的不同,走上了截然不同的道路:
总结: 谷歌赢在算法深度,Meta赢在开源生态,而百度则展示了中国科技巨头在追赶与适配过程中的工程落地能力。
《天才制造者》生动地描绘了AI先驱们如何从象牙塔走入商业与政治的旋涡,其理想主义的变迁体现在以下三个层面:
总结: 技术理想主义在这一过程中经历了从“改变世界”的宏大叙事到“受控演进”的现实转型。虽然初衷是造福人类,但在商业和政治的双重引力下,科学家们不得不学会在权力与资本的框架内寻找技术伦理的平衡点。