文心开源,彦宏转身

蓝鲸财经
昨天

文|象先志

百度的一只脚,踏进了开源这条河

百度给自己定的使命,是用科技让复杂的事情简单化。

Hugging Face的主页上,百度在这句话后面又加了句:我们坚定地认为,真正的简单源于开源。

你看,这个描述很直接,体现了一家技术公司,对用科技推动世界进步的责任感和美好愿望,以及坚定拥抱开源社区的理想图景。

当然,有关Mission的这两句话是最近几天新加的。主要之前如果这么写,好像也不合适。因为在这轮文心大模型4.5系列模型开源之前,百度在Hugging Face上并没有开源过任何自己的私有模型。

百度在开闭源问题上的态度转变,是突如其来的,也是自上而下的。因为只有自上而下的指令传递,只有李彦宏本人的高度重视和全面部署,百度的AI团队才能在短时间内开创出开源工作的大好局面。

从规模上看,百度的这次开源很有诚意。一次性放出了10款模型,参数量从最大的424B到最小的0.3B都有,全面覆盖多模态和文本,工作量非常饱和。

官方给出的相关基准测试数据显示,这系列模型性能优于DeepSeek-V3等产品,并在多个方面相较于SOTA有显著提升。

从二月份宣布消息,到今天如期发布,承诺终于兑现。

MEG 30号当天搞了个金点子夜市,Robin被人拍到现身百度科技园,心情大概还是比较奈斯。

只不过即便模型跑分跟实际表现相符,也算不上是个大新闻,远到不了DeepSeek当时放卫星的程度。

我有个本科同学CVPR2025中了三篇,前不久刚从Nashville回来。我微信上问他对文心开源这事怎么看,他谦虚说自己不够格评价。后面又补了两句,“但百度应该没人用吧”,“现在讨论大模型基本不考虑文心了”。

1. 文心大模型来的晚了一些

首先我们先看下文心这次开源的模型水平。

文心网站上,有公布性能和基准测试结果。

官方的技术报告里,旗舰模型300B-A47B在大部分测试类别中,都实现了比Qwen3、DeepSeek-V3和GPT-4.1更好的表现。

但众所周知,由于Meta在Llama 4发布的时候拉了坨大的,现在对于官方公布的跑分结果通常直接搞有罪推定。

从大模型观测员等第三方评测结果看,这次的文心大模型4.5系列,跟现有的旗舰开源模型如DeepSeek R1、Qwen 3等相比仍有差距。

该账号主理人toyama nao在知乎上说,初版短评写的“推开开源大门”,后面觉得还是用“轻敲”更合适。显然,中规中矩、没有惊喜是对这系列文心模型较为合适的客观评价。

但一个中规中矩、没有惊喜的模型,在当下的开源环境中,能给百度带来的助益必然相当有限。

大模型领域跟传统的互联网行业一样,也是趋向于赢家通吃的寡头格局。

作为用户,你不会想用一个技术上落后的产品,因为你可以很容易地切换到更好更优秀的模型,而且不会有任何其他方面体验上的损失。

如果进一步将考虑范围缩小到开源社区,一个普通的中规中矩的模型所拥有的空间会更加逼仄。

对于开发者或者企业而言,免费的比你好的选择那么多,为啥要选择一个差强人意的?

开源社区的空间很大,但不可能容得下每个企业。

开源大模型领域的发展大致可以分成三个阶段。

阶段一:ChatGPT刚刚发布,没有任何竞品,开源社区零基础。

阶段二:Meta发布Llama,实现了开源模型的从无到有,但这个时候开源跟闭源仍然差距巨大。

阶段三:DeepSeek发布R1,开源闭源模型差距大大缩小,形成了开源紧追闭源的心理预期。

事实上,当我们从阶段二跨越到阶段三这个阶段后,随着开源社区模型选择的多样化,行业的主要矛盾也从“无模可用”到“无先进模型可用”的阶段。

在这个阶段,你发一些中等水平的模型,已经不具有太大的意义,因为没人在意。

只能说文心系列模型的开源来得晚了一些。如果百度去年这个时候做这事,估计还能掀起点浪花。

只不过去年这个时候,李彦宏还在继续输出“暴论”,批判开源模型是智商税。

李彦宏选择开源,背后的考量是很清楚的。

百度之所以最初开始选择闭源,是预期自己能想OpenAI那样,建立技术实力上的势能差。

我可能打不过OpenAI,但OpenAI在国外,对国内的市场格局影响不大。

我只要做到比国内的竞争对手优秀就行,类似于当初做搜索的逻辑。

但做着做着,李彦宏发现百度不只是做不过国外的竞对,连国内同行都一个二个在超越自己,情况属实是有些危急了。

所以哪怕被打脸,也还是决定转向开源。

开源一方面可以赚吆喝,就像DeepSeek和阿里云那样,让别人认可你的技术实力,科技企业嘛,还是需要搞点技术增光添彩的。

其次是可以赚银子,像文心大模型肯定在百度自己的基础设施上跑出来的效果最好,通义系列肯定上阿里云更方便更有效率,通过建立生态提供服务的方式赚钱。

最后,开源还有个好处,就是可以相对客观地获得有关自身模型的技术反馈,这样可以倒逼企业提高研发水平,拿出更有力度的产品。

由于前两个因素都需要有技术领先作为基础,目前来看百度这次的发布最多只能在第三点上有点效果。

2. 开源闭源不只是个技术问题

业内关于开源和闭源两条路线的争论很多,两边都有各自的道理。

从用户的角度说,当然是希望开源模型的数量越多越好、性能指标越高越好。开源模型可以给社区提供技术养分,同时也能借助社区力量加速迭代进步,实现技术反哺,构成良性循环。

当然最重要的,大语言模型已经并且正在成为数字性基础设施,开源模型可以保证所有人对这项技术的可获得性。

OpenAI和Anthropic封的号比PUBG还多,就是个很好的提醒。

但对于企业来说,大模型的研发和训练需要投入巨量的成本,这些成本需要有渠道能cover,才能实现长期的可持续性。以闭源的形式,提供排他性的产品服务,然后从中获取营收是个更合适的路子。

虽然到目前为止,即便是OpenAI也还没能证明这条道路在财务指标上的可行性,去年一年其亏损额达到50亿美元。

因此,开源闭源不只是个技术问题。

然而,就百度来说,这个问题还因为牵涉到李彦宏本人而更加复杂化了。

在国内这么多家互联网公司创始人里,李彦宏是外界普遍认知里最技术范的。

这跟百度的历史有关。搜索引擎是个技术含量很高的领域,而李彦宏本人就是“超链分析技术”专利的持有者。当然,除开创立百度早期,李彦宏后面十几年里作为CEO应该基本没再深度参与百度的技术研发了。

但李彦宏仍然是百度的技术图腾,这在大模型到来后尤为明显。

其他公司会有技术相关的负责人抛头露面,但百度这边几乎所有重磅的模型或者产品都是李彦宏本人站台。开源和闭源的战略调整,也被认为是李彦宏基于自身的技术认知和品味,在做技术路线上的关键选择。

当我们回顾百度在开源闭源上的态度变化时,实际就是在看李彦宏本人的合订本。

2024年4月16日,李彦宏:开源模型会越来越落后。

2024年7月5日,李彦宏:开源模型是智商税。

2025年2月8日,百度文小言宣布接入deepseek。

2025年2月14日,定了,文心下一代模型开源!

作为公司最高决策者,你当然可以随时做出开源或者闭源的决定,然后让下面的人去执行。但执行的结果和下面的人对你的判断,你是没办法控制的。

作为技术型CEO,你没做好战略管理,没能精确地锁定某个新兴行业并拿下市场份额,这虽然面子上有点挂不住,但在公众和员工那里是有谅解理由的。

做技术的嘛,在其他方面眼光不够敏锐,还是情有可原的,本来寻找第二曲线这事就不容易。更何况公司在正常运营,百度的现金流还稳稳的,没有大规模的裁员或者降薪,日子正常在过。

但在技术问题上,你前期信誓旦旦红口白牙语出惊人,后面又来360度大反转,-1-2夸你有决断敢拍板不怕打脸,但员工真实心理会怎么想呢?

他们只会觉得你的技术品味和方向判断能力有很大问题。外部的人最多只是嘲笑调侃聊作谈资,但内部的研发团队士气会受到实打实的打击。

说到底,开源闭源是技术路线的选择,但绝不只是个技术问题。

今天中午有个新消息,百度创始人李彦宏发布内部信,宣布了新一轮组织调整:

何海建(Henry)正式加盟百度,担任集团公司首席财务官(CFO),负责百度财务体系管理工作。集团资深副总裁何俊杰(Jackson)不再担任代理CFO职务,轮岗负责集团人力资源及行政管理。

轮岗是个很有百度特色的制度,后面有机会可以专门写一篇。

轮岗这事不罕见,很多企业都有,但一般都是中基层岗位,比如银行管培生都需要在不同部门实习跑一圈,熟悉下业务。百度不一样,百度轮岗轮的是最高管理层那批人。

官方语境里,轮岗是为了激发组织的创新与活力。

轮岗到底有没有激发百度的组织活力我不知道,起码目前来说,效果不是很明显。但轮岗在事实上造成了一个结果:强化了李彦宏和百度之间的同一性。(后续会针对百度组织架构进行拆解)

这只会加剧我们上面所说的那个问题。

免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。

热议股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10