持续烧钱的大模型挡不住AI行业的热闹

作者:贝克街侦探陆振熙 48小时之内,智普AI、MiniMax相继通过港交所上市听证会。有人说,这是争夺大机型市场份额,也有人表示,开发大机型的企业因缺乏资金而无法盈利,二级市场急需输血。财报显示,2022年至2025年上半年,智浦累计亏损超过62亿元人民币。MiniMax在2023年和2024年分别亏损2.69亿美元和4.65亿美元。 2025年前9个月亏损5.12亿美元,累计亏损超过87亿元人民币。显然,“不赚钱”是目前主流模特行业玩家无法逾越的鸿沟。这些公司和行业领导者在重新定义人类智能的上限时正在以惊人的速度花费资金。有迹象表明,参数越大,损失越大。能力越强大,计算起来就越困难。市场仍在争论“哪种模型更聪明”,但最残酷的问题是:如果连最聪明的机器都解决不了,这还算划算吗?一个长期亏损、短期没有盈利的行业还值得投资吗? 01 真正的技术浪潮经历了长期的损失。在技​​术变革发生之前,没有人能够预测风将吹向何处。只有坚持长远、持续投入的参与者才能产生风。例如,亚马逊从1997年到2001年连续五年净亏损。2000年互联网泡沫期间,股价从113美元跌至6美元。公司于2003年首次实现全年盈利。成立10年来,公司累计亏损超过210亿元。在亚马逊盈利之前,沃尔l Street认为亚马逊的物流资产太重,毛利率太低,而且缺乏无限制扩张的利润纪律。因此,我们得出的结论是,亚马逊没有盈利。卖得越多,损失就越多。然而,截至 2019 年,亚马逊的增长很可能归功于新一代。华尔街精英看到了空间,齐心协力,将亚马逊股价推至2万亿美元,超越微软,一度成为全球市值最高的上市公司。尽管现在再次被苹果、英伟达和微软超越,但亚马逊的价值得到了市场的认可,目前市值仍稳定在2.5万亿日元左右。亚马逊也不例外。另一家长期亏损、濒临破产的典型企业是如今在网民中广为人知的特斯拉。从2003年到2019年,特斯拉累计亏损超过420亿元,尤其是2017年到2018年。特斯拉首席执行官埃隆·马斯克在接受采访时表示,当特斯拉达到今年的 Model 3 产量目标时,特斯拉“距离破产不到 10 周”。 2018年,特斯拉饱受“电动汽车无法规模化”、“智能驾驶只是一张PPT”等质疑的困扰。另外,当时电动汽车产业链还不成熟,电池成本仍然居高不下,软件决定车辆档次的宣传也颠覆了很多消费者对汽车的认知。但随着电池成本的下降以及智能驾驶软件(FSD)的出现,特斯拉终于成为市场公认的焦点。除了这两家公司之外,和许多其他公司一样,云计算不仅经历了长期亏损,而且在2006年至2010年间还被市场“忽视”,一度被定义为“IT外包2.0”。大多数人,包括专业人士,都认为公司永远不会将其核心系统放在云端。今天,云计算已经成为全球最赚钱的云平台。 A股上市公司中,云计算公司对传统公司的转型最大,长期毛利率超过30%。当这个行业脱颖而出时,有行业专家公开表示“早期亏损就是进入门槛”。无论是亚马逊、特斯拉、云计算还是移动互联网,都有长期亏损的公司和企业现在已经盈利。有些人可能认为世界已经出现了。无论世人如何称赞其艰难的奋斗过程,并不是所有长期亏损的企业和行业都能最终等到盈利的拐点。事实上,技术浪潮初期普遍亏损的共同特征并不是“利润忽视”,而是持续投入资源进行系统性能力建设,而系统性能力建设却难以维系。最终复制。随着基础设施的形成,盈利能力的转折点通常以非线性方式出现。亚马逊连续十年亏损,但在存储、物流和云计算方面投入大量资金,最终成为全球最重的云和电子商务基础设施。多年来,特斯拉一直押注于电池和大规模制造的成本曲线。一旦过了临界点,利润立即释放。云计算的早期发展并没有持续多久,但随着时间的推移,它成为了一种利润丰厚的收入来源,弥补了数据中心和调度系统的损失。对于新兴产业来说,真正的危险从来不是损失本身,而是损失并不能产生任何不可替代的东西。 02 应用场景广泛,大模型的不可替代性 恰好,目前处于亏损状态的大模型行业,具有很大的不可替代性。大型模型是人工智能使用大量数据进行训练的模型官方,具有一般认知和生成能力,并且可以在任务之间迁移。一般是指参数规模达到数十亿甚至万亿级、经过大量数据和计算能力训练、具有跨任务泛化能力的人工智能模型。一个核心特征是模型不再针对单一任务而设计,可以使用统一的模型结构来展示跨各种复杂任务的通用智能能力。大型模型可以为多个行业提供动力,从航空航天到港口、清洁和采矿。以特斯拉为例,2021年特斯拉将推出解决2D转3D、多传感器融合、复杂场景识别等问题的BEV+Transformer智能驾驶解决方案。在感知阶段,BEV(鸟瞰图)通过融合多模态将2D平面图像更新为BEV视角来自同一平面的纯视觉传感器的数据,从全局角度解决数据之间的遮挡和重叠问题,提高物体检测和跟踪的准确性,消除对高精度地图的依赖。深度学习神经网络模型(Transformer)的自注意力机制分析BEV特征图中的各种位置特征,实现特征从2D图像到3D向量空间的转换,帮助系统理解对象之间的关系。空间关系,从而改善感知。此外,Transformer 还可以从环境中生成高级语义信息,包括对象类别、位置、运动趋势等。决策模块可以通过将高级信息与其他预测结果相结合来生成更精确的驾驶策略。 BEV+Transformer架构显着提升了系统的识别和决策能力,提高系统对“长尾场景”的适应能力,逐步能够应对复杂的城市道路环境。智能驾驶打破了仅适用于高速场景的限制,逐步开始探索城市地区的NOA。 2022年,特斯拉计划进一步引入繁忙网格(OCC)技术,提高智能驾驶的动态障碍物识别和复杂场景泛化能力。 2023年,特斯拉计划推出智能驾驶解决方案,将整个“感知、决策、控制”流程整合到端到端的集成架构中。针对特斯拉丑闻,智能驾驶行业纷纷推出大型车型,引发“端到端模块化”与“端到端集成”技术路径之争。从端到端的模块化角度,华为于2024年4月推出了乾坤ADS3.0架构,设计为“GOD检测网络+PDP决策”“智造网络+本能安全网络”。这是三网协同的一个例子。它采用大规模端到端模型,通过GOD、拟人化决策的PDP和本能安全网络应急策略提供无损感知数据,形成“感知-决策-安全”闭环。2024年5月,小鹏汽车推出了国内首个量产的端到端大规模模型XNGP+,融合了三大主力组件:大规模XPlanner和大规模XBrain语言模型从端到端集成的角度来看,理想公司将于2024年10月推出OneModel端到端+VLM双系统架构,通过单一端到端架构(One Model)提供从传感器输入到轨迹输出的整个链条的直接映射,同时引入视觉语言模型(VLM)构建并行双系统框架,并利用VLM的认知推理能力来标准化。下布端到端模型行为的研究,以在拟人化驾驶、复杂场景处理和安全冗余方面实现突破。在端到端架构下,模型从大量数据中学习规则,不再依赖规则库的手动迭代来创建新的驾驶场景。具备全局优化能力和数据驱动泛化特性,真正实现从“基于规则”到“数据驱动”的跨越,进一步解决部分长尾场景和拟人化决策,大幅提升智能驾驶系统性能,助力智能驾驶向L3级别过渡。即使进入L3时代,端到端模型仍然存在明显的数据障碍和泛化失败。在端到端架构下,模型观看大量驾驶视频片段,学习场景时空特征与驾驶策略之间的映射关系,并直接ly 生成车辆控制。操作说明。该端到端技术具有无损传输、全局优化和一定的泛化特性,可以满足L2级部分自动驾驶的要求。但技术本身的局限性限制了L3级别自主执行全动态驾驶任务的实现。这时,既然可以生成动作指令,那么就需要进一步引入一种更广泛的VLA模型,称为视觉、语言和动作,可以更新到可以思考为什么生成相应动作指令的程度。国内企业理想、小鹏等已在该技术领域有所拓展,积累了一定的技术储备。大车型在智能驾驶领域取得的成果,再次带动了车机芯片、汽车芯片研发等算力领域的投资。乌德计算。这也是业内大部分大车型尽管亏损仍继续投资的主要原因之一。推动多领域融合,实现多行业共同迭代。 03 有助于其他行业发展的大规模模型的迭代路径和最终猜测没有理由被排除在市场之外,更没有理由等待行业的拐点。我们现在唯一要担心的是,谁能在这个行业生存下去,直到我们不再需要讲故事的那一天。目前主流大型车型集中在中国和美国。通过数据观察和人工分析建立的智能指标模型,目前主流模型以美国领域为主导。国外的代表公司有OpenAI、xAI、Anthropic、Google等。曾经在开源领域表现出色的Meta,受到Llama4系列进展缓慢以及i的性能影响而受到影响。ts车型逐渐落后。国内,在模型性能评测方面,DeepSeek、Qwen(阿里巴巴系列)和Wisdom Spectrum模型走在前列,Kimi和MiniMax也跻身国内模型领先之列。虽然腾讯和百度的车型没有进入排行榜,但各家公司的车型还是各有特色。上述格局体现了中美在基础模型和工程进展方面的综合优势。从目前的表现来看,谷歌在上述方面的功能布局比较均衡,覆盖面也比较广。这是我们内部开发的硬件的基础。这体现在从硬件(TPU系列)到应用的端到端集成的好处上。相对而言,其他玩家也在逐渐思考你的不足。例如,OpenAI 目前在底层定制硬件方面就处于落后状态。然而,路透社报道称 OpenAI 已宣布宣布将与博通合作开发新一代ASIC芯片,以提升其在算力和成本控制方面的核心能力。第0天,国产系列DeepSeekV3.1及以上版本以及GLM4.6适配国产芯片。整理以上模型,不难发现,目前的大规模全局模型仍然以 Transformer Decoder-only 架构为主流。尽管近年来出现了Mamba、KAN等新型网络结构,但它们尚未在工程场景中取得主导地位。变压器系统继续占据核心地位。短期内,Transformer仍将是大规模模型开发和优化的基本框架。其地位和工具链优势将继续巩固其主导地位。目前,Transformer 架构的一个潜在挑战是 Sora 的 Diffusion 架构,该架构主要用于图像和视频生成。Sora 将于 2024 年初发布,将展示 Diffusion 和 Transformer 相结合的潜力,显着提高视频制作的一致性、分辨率和持续时间。 2025年5月,谷歌发布了Gemini Diffusion的预览版,首次尝试使用扩散算法进行文本生成。此后,Byte 还推出了 Seed Diffusion 来跟踪相关地址。目前有观点认为 Byte Seed Diffusion Preview 的性能高于 Google Gemini Diffusion。 Transformer 中,缩放法则是核心逻辑。 Scaling Law 2.0以“学习后训练+强化”为核心路径,Grok反复验证了这个方向。 xAI 的发布速度可以从缩放定律焦点的变化中看出。 Scaling Law 1.0 阶段涵盖了从 Grok2 到 Grok3 的 xAI 迭代,性能显着提升,主要是将预训练计算能力扩展了约 10 倍。钍e Grok3推理模型表明Grok模型已进入后训练阶段。 Grok4 发布时,训练后(Reasoning)计算能力再次比 Grok3 提升了约 10 倍,使训练后的计算能力要求更加接近训练前的要求。从当前头部模型的迭代进度来看,很可能对训练后的算力要求还会继续提高。xAI官网,Grok4依赖于20万张卡牌的大型Colossus级别池进行训练。因此,不断扩展的训练模型与国外高密度计算核心集群的库存相匹配。 Scaling Law 2.0体现了算力从训练前向训练后和推理的转变,对密集集群的提供提出了更高的要求。 Grok 4.1 将代理模型奖励引入到强化学习奖励范式中,并持续改进后期-按数量级训练计算能力。值得注意的是,随着大规模模型的快速迭代,各家公司除了追求技术尤其是OpenAI之外,也在争先恐后地扩大算力。由于计算能力有限,国内企业需要进行架构优化、创新文化、捕捉注意力本质,阿里巴巴和DeepSeek就是典型的例子。从目前的技术发展来看,Transformer架构在中短期内不太可能退役。它仍然是主流,其核心算法——注意力机制(计算 token 之间的相关性并预测最优结果)构成了模型性能的关键环节。因此,国内各大厂商普遍注重关注度层面的优化和创新,包括阿里巴巴的Qwen系列和DeepSeek型号。典型代表。既然很难短期内克服算力限制,架构创新和算法改进将是全国基础模型竞赛的主要方向。以 DeepSeek V3.2 为例,DeepSeek V3.2-Exp 与之前的版本 V3.1-Terminus 没有显着的性能差异,我们将 V3.2 定位为“迈向下一代架构”的中间步骤。 V3.2最大的改进体现在动态稀疏考勤(DSA)的引入,显着提升了模型训练和推理效率。与上一代模型相比,API进入和退出成本分别降低了约50%和75%以上(推理成本)。 DSA的主要优化集中在注意力机制层。通过算子和内核级别的工程重组,我们显着压缩了长上下文任务的训练和推理开销,同时保持模型性能曼斯稳定。继续走替换架构改进的技术路线,实现整体效率提升。该版本不仅体现了算力限制下的补偿实用性,为后续架构演进奠定了技术基础,也体现了国内模型在基础优化方面的不断积累。 DSV3框架的成功使得许多模型向DeepSeek V3框架引入了特定的架构优化,例如Kimi K2。 K2的主要改进包括在激活参数不变且训练和验证损失不过分的情况下,通过简单地增加MoE参数总数来满足缩放定律。包括验证它继续减少而没有过度拟合的迹象。在保持稳定性能的同时,适度减少注意力头数量,显着降低算力开销因。只保留第一层的密集层,其余采用MoE结构,改善第一层路由器负载不均匀的情况,提高maven利用效率。我们提出了一种简化的无集群路由器来优化路由调度和计算参数。将模型参数从V3中的671B增加到1T。我们引入 MuonClip 优化器来显着提高训练稳定性和收敛一致性。得益于上述改进,K2 实现了更低的损失和更高的参数效率,同时保持了与 DeepSeekv3 相当的训练和推理成本。 K2的方向体现了国家队在算力限制下通过扩展缩放规则和细化结构来使模型更具成本效益的工程思维。在领先企业的共同努力下,整合推理模型和非推理模型,模型应用的转折点可能会出现。例如,GPT-5使用统一架构架构来实现快速思考和深入思考的自适应协作,并使用路由器根据任务动态分配资源。 GPT-5.1使用自适应推理和复杂的模型划分来提高智能性能和交互体验。 DeepSeek V3.1使用混合推理架构实现统一模型,实现快速思考和深度搜索之间的独特兼容性。引入嵌入式系统后,各大模型厂商的研发重点逐渐从较低层面的模型优化转向更高层面的应用探索和营销,技术竞争也从理论模型创新转向产品体验和绿色建造。 04 总结 当大型车型的“基地”逐渐统一时,真正的共同竞争才刚刚开始。现阶段,大型模特行业就像一条修复后的高速公路。下一场战斗将会是谁?这不是谁的问题n 铺路,但谁能制造出行驶里程最长的汽车。随着大型车型底层系统逐渐统一,厂商之间的竞争自然会从“车型有多强”转向“好用吗?生态行不行?”技术优势开始让位于商业能力,真正的测试才刚刚开始。行业各大厂商不再担心型号尺寸加大或者参数增加,而是关注“哪款产品更好”、“谁能先卖掉智能手机”。这意味着伟大模型之争正在从实验室的理论创新转向现实世界的生产经验和生态竞争。谁能肯定地说,今天的亏损公司不会腾飞并成为下一个亚马逊或特斯拉?
特别提示:以上内容(包括图片、视频,如有)由自有媒体用户上传发布平台“网易账号”。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注