2026年算力芯片的“主桌”上早已不是只有英伟达、AMD风光无限,“非GPU”的玩家们,再也藏不住了。
以前提起AI算力,大家第一反应都是GPU,毕竟它垄断市场这么多年,几乎成了AI的“标配”。但最近几年,风向彻底变了——TPU异军突起,一批被称为“高阶TPU”的新势力更是直接杀疯。
2025年12月24日,英伟达以200亿美元将AI芯片独角兽Groq的核心团队与技术收入囊中;2026年1月15日,OpenAI与AI芯片独角兽Cerebras签下一笔价值超100亿美元的订单,计划部署750兆瓦的Cerebras晶圆级系统。
这两起相隔仅数周、总价值超过300亿美元的交易,共同勾勒出当前AI算力军备竞赛的图景:一边是OpenAI扶持挑战者,寻求打破供应链依赖与效率瓶颈;另一边是英伟达以攻为守,砸重金将潜在的技术路线挑战者纳入麾下,围绕底层架构的“定义权”争夺从幕后走向台前。
今天笔者就用最接地气的话,把GPU、TPU、“高阶TPU”讲明白,看看它们到底谁更能打,未来的算力格局又会被谁改写。
其实这三者本质都是“算力工具”,但定位完全不同。就像家里的工具,有的全能,有的专精,有的则是升级款“黑科技”。
而这三者,恰好对应了当前AI算力领域的三大技术流派:以GPU为代表的通用并行计算派、以传统TPU为代表的ASIC固定数据流芯片派,以及以一批新兴的新架构芯片为代表的可重构数据流芯片派,三者形成了共生又有区隔的技术架构、商业生态与发展路径,像一场围绕未来统治权的“三国演义”。
GPU最早是为了玩游戏、做图形渲染设计的,核心优势就是并行计算——“能同时干很多事”,快速完成批量任务。而后来大家发现,这种“并行干活”的能力,刚好适配AI训练和推理,于是,GPU就成了AI算力的“主力军”。
但GPU的短板也很明显:它太“全能”了,没有专门为AI优化,干活时需要频繁来回搬运数据,不仅费电,速度还慢。
就像一个万能维修工,什么活都能做,但修精细活不如专业师傅,AI计算里的“张量运算”,对它来说就是“吃力不讨好”,效率偏低。
尤其是在AI进入大规模应用,从前期模型训练转向海量、实时的推理任务后,极致的成本控制、更低的延迟与更高的能效成为最关键诉求,这恰恰暴露出通用型GPU在某些推理场景下的“性能过剩”与效率不足,也为其他技术路线提供了破土而出的空间。
市场层面,GPU阵营的优势十分明显。英伟达凭借其GPU和成熟的CUDA软件生态构筑了AI算力领域近乎垄断的护城河,市值在三年间一路高涨,成为史上第一家市值5万亿美元上市公司。
国内市场亦是一片繁荣,“国产GPU四小龙”摩尔线程、沐曦、壁仞科技和天数智芯已全部上市,摩尔线亿元,折射出国产替代战略下的强烈市场预期。
它的唯一目标,就是把AI的“张量运算”干到极致。TPU就像一个专业的AI维修工,别的活可能不会,但处理AI相关的计算,速度和效率都远超GPU。
TPU属于ASIC(专用集成电路)范畴,技术核心是为待定算法(如矩阵乘法)固化的电路,硬件与软件深度绑定,是“专芯专用”的终极形态。其核心优势在于极致性能与能效,在特定任务上表现最优,量产成本低(针对固定需求),能满足巨头供应链自主需求,最佳应用场景是规模化固定任务,比如云端巨头内部推理、智能手机SoC中的NPU、自动驾驶芯片等。
它的核心秘诀就是数据流式计算——“少跑腿、多干活”:数据不用来回搬运,在芯片内部就能完成全部计算,既省电,延迟又低。比如谷歌的TPU v7,同等算力下,功耗只有英伟达B200 GPU的一半,能帮企业省不少成本。但TPU也有缺点,太“专情”了,只擅长AI任务,玩游戏、做视频编辑这些活,它根本干不了,而且还和谷歌的生态绑定,灵活性不够。
ASIC路线的崛起,本质上是大型云厂商和科技巨头对算力主权和成本控制的迫切需求,这条路径舍弃了灵活性,追求为特定算法深度定制的性能与能效巅峰。
随着AI成为业务核心,每年数百亿美元的芯片采购费用促使科技巨头纷纷走上自研ASIC之路,除了谷歌的TPU,还有亚马逊的Trainium、Inferentia,微软的Maia,以及Meta的MTIA芯片等。
它们的商业逻辑在于,通过硬件与自身软件栈的深度垂直整合,在规模化部署中持续压低“每Token成本”,构建长期竞争优势。
这不仅催生了巨头自身的芯片业务,更引爆了庞大的定制芯片设计服务市场,博通、联发科等公司也因此成为幕后赢家,其中博通去年年中股价两个月内涨幅超70%,市值一度突破1万亿美元。
国内市场中,ASIC公司的估值逻辑与国家战略、国产化率提升深度绑定,享受“战略资产溢价”。寒武纪作为代表性企业,2020年7月在科创板上市,上市初期市值突破1000亿元,2024年底以387%涨幅获得“2024年股王”称号,2026年1月市值约6367亿元;昆仑芯前身为百度智能芯片架构部,2021年拆分后估值达130亿元,目前已启动港交所主板上市筹备工作。
TPU虽然好用,但还是不够灵活——架构固定,遇到不同的AI算法迭代,就有点“力不从心”。于是,各种基于已经被TPU验证过“便宜又好用”的数据流架构的新型AI芯片在全球可谓争奇斗艳。它们相当于TPU的“Pro版”、“ultra版”,保留高能效的前提下,不断提升芯片的灵活性。他们的秘诀是采用了一种基于软件定义硬件(software define hardware)的可重构数据流技术,也是三大流派中目前最具颠覆性想象空间的一支,其本质可看作在GPU的通用性与ASIC的高效性之间探索出的一种平衡方案。
可重构数据流最牛的地方,就是“能变形”——通过软件设置,就能实时调整硬件资源,适配不同的AI任务。
既有着TPU的高效,又有着GPU的灵活,相当于“专业师傅+万能工”的结合体。其技术核心“软件定义硬件”,是通过编译器或片上交换网络动态重构计算单元连接,平衡灵活与高效,核心优势在于兼顾灵活与高效,可在算法迭代后适配,具备确定性延迟,执行路径可预测,适合实时推理,同时能满足算法快速迭代的科研需求,最佳应用场景包括对延迟敏感的专业推理、金融交易、实时交互AI、边缘计算等。
这个阵营最耀的要属Groq,它的创始人Jonathan Ross曾是谷歌TPU项目的创始成员之一,离开谷歌后联合几位工程师创立Groq,还从谷歌招募了一批TPU团队成员,“We aim to create AI chips that outperform TPU.” 不难看出,Groq目标是做出一款超越TPU和GPU,专为AI推理任务而生的更高阶的新型处理器。
Groq主打产品是名为“TSP”的专用推理芯片,也叫做张量数据流处理器,其在设计芯片之前先行完成编译器架构,通过软件定义,让高带宽的芯片间“数据传送带”实现流水线式高效传输,在推理延时和吞吐上能够实现比传统GPU快5-18倍、能效比高10倍的表现。
相比TPU的性能表现,Groq的优势也已经得到数据验证。公开信息显示,在相同推理任务中,Groq芯片的首token延迟比谷歌TPU v7芯片降低20%~50%,每token成本降低10%~30%。
倍感压力的英伟达2025年底以200亿美元现金通过一份非独家授权协议将Groq的核心团队和技术“打包带走”(仅留下公司空壳独立运营),这一价格较Groq前一估值翻了近三倍。
本质上,这是一场关于未来算力格局的战略性防御布局——通过将可重构计算这一潜在威胁纳入自身体系,英伟达不仅消除了一个来自架构层面的挑战者,更将它的技术优势转化为自身护城河的一部分,可见可重构计算路线的巨大潜力。
除了Groq,从事可重构计算芯片开发的公司还有SambaNova等,2025年10月,英特尔有意收购SambaNova,被解读为“英特尔AI战略的关键一跃”,2个月后双方进入收购谈判阶段并签定收购意向书。
随着高阶TPU的崛起,全球算力市场已经不是GPU一家独大了,现在已经形成了“三足鼎立”的格局,各家都有自己的王牌——GPU坐拥CUDA生态城池,正遭受ASIC与可重构数据流“新势力”的攻城,ASIC凭借极致专用性,而可重构作为新兴势力正试图开辟一条新的王者之路,三大技术流派之间的竞合与消长将共同决定万亿美元AI算力产业的最终走向。
值得期待的是国产“高阶TPU”,也在悄悄发力。在这场全球算力混战中,我们国产芯片企业没有缺席,一直在紧跟全球趋势,聚焦高阶TPU的核心技术——可重构数据流架构,毕竟这是最贴合国内AI发展需求的方向,也是打破GPU垄断、实现算力架构换道超车和国产替代的有效路径。
国内已经有不少企业实现了技术突破,开始商业化落地。像是基于清华大学技术积淀的清微智能,它和Groq、SambaNova同期起步,同样选择了布局新型数据流处理器,深耕可重构技术,推出的自主研发芯片,不仅技术路线和Groq、SambaNova一脉相承,还更贴合国内的场景需求,据其官方报道,已在十余座智算中心规模化部署“软件定义硬件”的可重构架构的服务器和超节点。
在国内市场,可重构架构的资本叙事与产业自主的期待紧密结合。北京、上海等一批以可重构架构为核心技术标签的企业陆续发布产品,并获得资本青睐和政策扶持,启动上市相关进程。清微智能去年12月初完成了超20亿元C轮融资,得到北京“市级+区级”双重国资的联合支持,同时还是国家大基金二期投资的唯一新型架构算力芯片企业,足见可重构架构高度契合国内供应链自主与技术超车的现实需求。
从GPU的垄断,到TPU的崛起,再到铸入软件定义神器(SDH)后的“高阶TPU”巨大的想象空间,算力架构的迭代,本质上都是为了适配AI的发展需求。以前大家拼制程、拼算力堆砌,现在拼的是架构、是能效、是灵活性,而非GPU赛道,已经成为未来的核心方向。
对于我们来说,“高阶TPU”不仅是打破国外算力垄断的新机会,也是国产算力发展的关键。这需要更多的国产企业,在这条赛道上勇于探索,砥砺前行,毕竟这是一条没有既有经验和IP可循,没有成熟生态可依赖的技术路线。但随着flagOS等国产软件和指令生态的不断突破,借助中国完备的集成电路封测创新体系,未来一定能在全球算力格局中,拥有属于我们自己的话语权。
声明:本文仅为信息交流之用,不构成任何投资建议,股市有风险,投资需谨慎。返回搜狐,查看更多