冷眼与讥嘲之后，google的AI大模子翻盘之路

日期：2025-01-02 浏览：

文｜锦缎“我以为2025年将至关主要。我以为咱们必需认识到这一刻的紧急性，并须要作为一家公司放慢步调。危险很高。这些都是推翻性的时辰。在2025年，咱们须要保持不懈地专一于开释这项技巧的上风并处理真正的用户成绩。”12月18日举办的2025年策略集会上，谷歌首席履行官桑达尔·皮查伊（Sundar Pichai）如是说。听起来像是公司存亡生死的时辰，现实是远不到这田地。谷歌刚阅历了一个扬眉吐气的12月，固然扬眉吐气之前是灰头沮丧。而在2023-2024年，能让谷歌的运气如斯曲折的变乱，只有当下最受注视的新赛道——年夜模子。谷歌在年夜模子的赛场上堪称受尽了冷眼跟讥嘲。起首要说，谷歌的年夜模子或许人工智能起步十分早，多少乎是Mag-7中起步最早的，乃至在OpenAI宣布了3.5之后，立刻在2023奶奶动身布了本人的第一代成熟年夜模子Bard。但多少乎招来的不是惊叹，而是近乎讥嘲的看待，股价也随之低迷。直到当初，谷歌依然是Mag-7中PE最低的。作为上个挪动互联网时期的相对成功者，早在2001年就曾经开端呆板进修研讨的谷歌来说，这是无奈容忍的。01 崎岖的年夜模子之旅起年夜早赶晚集作为上个挪动互联网时期相对的成功者，谷歌素来在技巧贮备跟技巧翻新方面不减色于任何公司。尤其是在深度进修、神经收集这类人工智能范畴，须要相对比拼算力跟算法的范畴，谷歌始终都处于引导位置。2001年，谷歌开端应用呆板进修来辅助人们改正要害词输入的过错拼写。2006年，推出基于呆板进修的谷歌翻译。2015年，开源呆板进修框架 TensorFlow推出，使得人工智能更易于拜访、可扩大跟高效，由此推举算法进入主流挪动利用场景。2016年，DeepMind开辟的AlphaGo击败天下围棋冠军，人工智能这个已经呈现在科幻作品中的词汇酿成事实。同年，DeepMind就推出了呆板进修发现并针对 TensorFlow 优化的定制芯片TPU，这种定制化芯片能够更快、更有针对性地练习跟运转AI模子，2024年12月谷歌的新一代年夜模子Gemini 2.0 就是基于第六代TPU练习得来。2017年，谷歌推出了新型神经收集架构Transformer，奠基了天生式 AI 体系的基石。2019年2月，GPT-2正式基于Transformer架构的言语模子，随后催生了GPT-3.5、GPT 4.0，GPT o1等等。遗憾的是，谷歌本人的初代年夜模子反而不是基于Transformer架构。竞争来的太快太急为了应答2022岁尾GPT-3.5的爆红，2023年2月6日谷歌宣布年夜模子Bard，3月份首批在美国跟英国推出。初代版本的Bard，是基于谷歌2021年宣布的LaMDA（Language Models for Dialog Applications）年夜模子。这款模子存在多达 1370 亿个参数，更重视天然对话才能，对信息跟数据处置的才能不敷强，因而在巴黎的直播宣布会中表示欠安，招致谷歌的股价下跌了8％。谷歌外部跟媒体纷纭批驳跟质疑谷歌的年夜模子才能。咱们的测试中，也发明跟ChatGPT比拟，Bard更像是上个时期的产品，对话后果比Apple的Siri好不了几多。2023年4月10日，Bard的底层模子进级为更强盛的通用言语模子PaLM(Pathways Language Model)。跟前代LaMDA模子比拟，PaLM领有更强盛的言语懂得跟天生才能，对话进程更为流利天然。5月10日，Bard进级为PaLM2年夜模子，在PaLM的基本上增添年夜年夜晋升了逻辑推理才能，来增加对话中的笑话。谷歌在这个阶段开端了年夜模子跟本身产物的集成，从PaLM2开端年夜模子曾经为多款 Google产物供给天生式AI功效，包含Gmail 跟Workspace等。始终到2023年12月，Bard才再次迎来年夜进级，谷歌官方给出的表示讲演表现Gemini Pro机能表示片面超出GPT-3.5，模子从PaLM切换为Gemini Pro。Gemini Pro在文本懂得、总结、推理、编码跟计划等方面都失掉了明显增强。在全部2023年中，只管谷歌在一直迭代模子，但一直并未进入“年夜模子顶流”行列，乃至利用范畴不走出谷歌本人的生态链。要晓得彼时曾经有不少套壳产物依附OpenAI的chatgpt开端红利了。谷歌四周，劲敌环伺。OpenAI盘踞年夜模子相对的领头羊第二，Anthropic的Claude每次迭代都能带来惊喜，并一直投Amazon等一轮轮融资，年夜有赶超OpenAI气概。Meta索性将自家年夜模子开源，剑走偏锋。谷歌本人的基础盘搜寻营业上，又有垂直AI搜寻产物Preplexy爆火，直接改造了搜寻成果这一谷歌搜寻告白的主要流量源。谷歌大略良多年不感触到这么激烈的危急感了。年夜模子比赛就像一场开卷测验，比拼的就是算法、算力跟基建，幸亏这多少样谷歌都不缺。老牌霸主凭气力遇上2024年2月8日 Bard正式改名为Gemini，谷歌开端了赶超之旅。2024年5月14日Gemini 1.5Pro跟Gemini1.5Pro，2024年12月6日Gemini宣布2.0 Flash。在奋起直追垂直年夜模子产物之外，谷歌还拓展了年夜模子外围产物，广受好评的就是NotebookLM。NotebookLM是2024年9月份谷歌宣布了一款AI条记利用。该产物能够对输入停止懂得跟择要，天生一个对谈式的音频内容，可谓播客制造的后天圣体。12月份NotebookLM停止了严重进级，包含新表面、新功效（比方“参加”音频概览以与掌管人攀谈的才能）以及高等版本 NotebookLM Plus。咱们在测试了两款由该条记利用制造的播客节目，谈话的娴熟水平曾经超越播客从业者低级程度，AI掌管人的音色天然，谈天进程中的不乏由谈话内容发生的顿挫抑扬，多少乎无奈辨认是真人仍是AI节目。独一的缺乏就是对内容的懂得，过于“AI”化，对输入内容的发掘无奈跟进时下热点内容。但这款AI音频制造东西带来的强盛效力是真人播客无奈比较的，不只能够利用在播客制造，还能够利用在论文懂得跟解读方面，年夜年夜下降了人们对精深内容的浏览门槛。Spotify Wrapped 的粉丝们推出一档Spotify Wrapped AI 播客，该播客完整应用NotebookLM 构建。多模态方面，2024年2月，谷歌推出了文生图模子Imagen 2。但推出后未几，就被用户发明混杂了实在汗青过错而蒙上暗影。随落后行“回炉再造”直到8月才迭代到Imagen 3。更生后的Imagen 3模子细节正确性方面失掉了加强，并支撑多种画面种种作风跟更丰盛的纹理，文生图像品质失掉明显进步。5月份，谷歌宣布视频天生模子Veo来抗衡OpenAI的Sora。初期Veo重要面向内容创作者，能够支撑高清楚度的视频天生，用户可能轻松制造辨别率达1080p、时长超越60秒的高品质视频，还支撑多种片子后果的视频作风。多家媒体测评发明，只管Veo在画质方面精致度更胜一筹，但视频内容“科幻感”太强，无奈做到Sora的事实感，多少乎一眼假。DeepMind还为气象猜测研发了AI气象模子GenCast，能够做到比其余气象预告体系提前15天预告景象变更，这对农业地域景象灾害预警极为有利。2024年10月份DeepMind由于卵白质构造猜测模子AlphaFold趁便拿了一个诺比尔化学奖，只管是跟David Baker均分的。无论是气象仍是在生物医药范畴，都标明谷歌AI在科研范畴浸透远超OpenAI等AI新秀。丰产的月份经由2024年一年的煎熬跟打磨，谷歌找到了本人的节拍，在24年最后一个月份迎来了丰产。不只以Gemini 2.0攻破了OpenAI持续12天产物宣布会的持续剧，更是以量子芯片Willow证实了本人在科技界弗成撼动的位置。12月11日Gemini 2.0宣布前，谷歌曾经“不惹人留神”地宣布了gemini-exp-1206模子。这是一款试验性模子，甫已宣布就在小范畴内成为了多个LLM评分榜单的top，乃至超越自家厥后宣布的2.0 flash。估计这个版本的模子会是将来更进步模子的测试版。更惊动确当然是12月11日的Gemini 2.0 Flash，从“flash”这个单词能够看出，大略率这还不是Gemini 2.0的完全版，但现在开释出的功效就足以帮谷歌拿回技巧引领者位置。其强盛之处不只在于强盛的推理才能，更在于一步到位的多模态支撑才能。这点跟OpenAI比拟就良知良多，说瞎话这两年OpenAI的宣布有点像评价的挤牙膏，每隔一段时光就宣布一款模子，才能上相对高于上一代，但进步的未几，对多模态的支撑更是相称滞后。Gemini 2.0 Flash比上一代的推理才能更强，响应速率更快。谷歌官方称，2.0 Flash 在要害基准测试中乃至比 1.5 Pro 更快，速率是 1.5 Pro 的两倍。2.0 Flash作为一款原生多模态模子，能够支撑支撑图像、视频跟音频等多种信息模态的输入跟输出。还能够原生挪用 Google 搜寻、代码履行等东西以中举三方用户界说函数。尤其是在数学运算、编程等方面，lmarena ai给出的评测成果是力压OpenAI 的o1-preview跟o1-mini。除了机能跟多模态才能的晋升外，Gemini 2.0 Flash也在踊跃推动AI代办的产物状态演进跟利用，随同此次模子宣布谷歌还推出了一系列相干功效，包含对多模态人工智能助手Project Astra的更新，推出了阅读器助手Project Mariner跟代码助手Jules。人工智能助理Project Astra最早于2024年5月推出，用户能够借助摄像头、麦克风等端口跟AI互动，用来停止物体辨认、语音信息交互等操纵。更新之后的Project Astra增添了对多言语、口音跟冷僻词的支撑。同时跟谷歌产物生态停止了更好的融会，借助Project Astra用户能够应用谷歌的搜寻、Lens跟舆图产物，增添了高低文影象功效，能够领有长达10分钟的对话影象，语音耽误方面也有了很年夜的改良。现阶段的Project Mariner以一款试验性子的阅读器扩大状态存在，该拓展能够懂得以后页面上的像素、文本、代码、图像跟表单等元素，并依据用户的指令输入实现特定的义务，如下单购物、填写表单、阅读封闭等操纵。Jules是一款为开辟者打造的代码助理，现在曾经集成到GitHub 任务流中，辅助开辟者停止代码剖析跟领导。此次宣布还推出了二代的视频跟图像天生模子，Veo 2 跟 Imagen 3。视频年夜模子Veo2，基于对事实天下的物理有了更好的懂得——因而它能够制造出十分高品质的视频，团体上细节跟实在感都有所进步。以及为研讨职员打造的研讨东西Deep Research，它直接应用高等推理形式辅助研讨职员停止研讨主题的摸索跟编写研讨讲演，依据笔者在多个社媒论坛潜水发明不只各种学科的先生、老师群体第一时光曾经应用上了Deep Research，某些从事庞杂技巧任务的企奇迹员工也畸形实验将其作为年夜模子的首选产物。能够说此次宣布会将谷歌带回了人工智能超一风行当，获得了年夜模子比赛阶段性的全方位的成功。更主要的是，借助其产物生态链完全的上风，谷歌有才能在AI年夜模子比赛的下一个赛场——AI Agent研发跟利用上比其余厂商走的更远。谷歌的在年夜模子范畴的当先不只包括其“年夜模子”产物自身的机能、多模态才能当先，更包括谷歌在模子芯片、模子练习平台跟卑鄙利用场景的全方位笼罩。跟着2.0flash模子的宣布，其背地的中心硬件也浮出水面——第六代TPUTrillium。Gemini2.0的练习跟推理100%由该芯片支撑。TrilliumTPU是谷歌云AI超等盘算机的要害组件，这是一种冲破性的超等盘算机架构，它采取机能优化的硬件、开放式软件、当先的ML框架跟机动的花费模子的集成体系。与上一代TPU v5e比拟，Trillium TPU可将麋集型LLM（如Llama-2-70b跟gpt3-175b）的练习速率进步高达4倍，将MoE模子的练习速率进步高达3.8倍。主灵活态随机存取内存(DRAM)是v5e的3倍，有助于最年夜限制地进步机能跟范围吞吐量。当初Trillium曾经走向现实利用阶段，任何厂商都能够购置来构建本人的年夜模子产物。但面临NVIDIA的强盛竞争压力，Trillium现在只获得了参数层面的当先，以及一个胜利的年夜模子案例，其与高低游硬件的兼容才能跟业界的接收度还须要时光的测验。02 谷歌的上风跟隐忧上风：生态与款项始终以来谷歌都是个“爱折腾”的公司，最为有名的就是已经的“谷歌20%时光政策”，容许谷歌员工每周能够破费20%的任务时光发展本人感兴致的名目。在相似的激励翻新的企业气氛下，谷歌外部出生了大批年夜巨细小的名目，只管年夜局部都悄悄下线，但此中也出生了不少至今仍带给谷歌滔滔财路的营收产物，听说Gmail、Adsense就是这一政策的产品。这条政策可能履行至今，都阐明谷歌是个激励翻新的企业，这是新技巧跟新产物的温床。除了激励翻新，谷歌在算力、云效劳方面的基建才能跟技巧架构、人才贮备是其余垂直厂商跟Meta、Amazon等至公司短时光无奈追逐的。除了开展年夜模子所必需的软硬件前提，卑鄙利用生态的比拼中谷歌也是桂林一枝。谷歌本人的视频平台Youtube自然就是多模态最佳利用场景、谷歌的搜寻曾经上线了AI Overview来应答Preplexity AI的追逐。谷歌的无人驾驶平台Waymo，将来也未必不克不及利用语音模子产物。丰盛的产物生态，使得谷歌能够实验AI Agent、AI硬件、呆板人多个偏向的年夜模子利用。更主要的，谷歌有钱。依据三季度财报，谷歌当季营收883 亿美元，同比增幅到达16%，净利润263亿美元，同比增加35%。谷歌云效劳营收114亿美元，同比增加 35%。三季度实现了 176 亿美元的自在现金流，季度末现金贮备到达了930亿美元。经由两年的年夜模子比赛，谷歌仍然手握近千亿美元现金。如许年夜的现金贮备，什么算力、芯片、人才成绩还会是成绩吗？谷歌多少乎具有年夜模子从0到1，再到100甚至于产业级利用所需的软硬件前提。只有治理层不再想2023年终那样乱了节拍，年夜模子给谷歌的营收跟股价奉献力气是就是不远的事实。隐忧：反把持危险谷歌的股价偏低，其重要起因就是反把持讼事可能招致的营业被拆分的危险。最新的反把持审讯中谷歌落败之后，给谷歌中心营业的远景蒙上一层暗影。美国司法部（DOJ）请求谷歌出卖Chrome阅读器，排除与苹果等公司告竣的搜寻引擎默许地位的协定，乃至将来可能请求出卖安卓操纵体系。这一系列请求对谷歌最为中心的搜寻营业无疑会形成宏大的影响，无他这多少项调剂关联到搜寻的重要流量进口，不这多少个进口谷歌搜寻的市占率势必会遭到影响，进而影响到搜寻告白的收入。出卖安卓操纵体系则可能会影响谷歌的挪动端利用生态完全性。为了应答司法部的请求，谷歌提出数项针对性阅读器协定、Android厂商的谷歌市肆跟阅读器改为非独有性子，或许是搜寻的默许设置停止年度评定来增加大众对其“把持性”位置的认定。近期日本公正买卖委员会也做出了谷歌搜寻违背日本《把持制止法》的裁决，这象征着将来谷歌日本的营业也会遭到影响。乃至由此激发其余国度也会连续对谷歌做出反把持相干的裁决。名高引谤，已经辅助谷歌搜寻突起的要素仿佛开端呈现不稳固的稳定，谷歌面临表里强盛的竞争敌手跟中心营业的多重袭击，非常须要一个稳固倔强的治理层。无怪乎桑达尔·皮查伊外部公然说，2025年危险很高，谷歌到了紧急性时辰。谷歌正在逐步夺回年夜模子比赛的行业存眷度跟开辟者认同，反把持年夜锤还尚未真正落下，谷歌取得了一个难过的开展窗口来在新的技巧改革潮水中临时站稳脚跟，为下一团体工智能时期真正到来前做好筹备。　　申明：新浪网独家稿件，未经受权制止转载。 -->

冷眼与讥嘲之后，google的AI大模子翻盘之路

推荐阅读