算力大洗牌：GPU、TPU与“高阶T”的终极博弈-PG电子控股有限公司

算力大洗牌：GPU、TPU与“高阶T”的终极博弈

作者：小编　日期：2026-03-12　点击数：　

算力大洗牌：GPU、TPU与“高阶TPU”的终极博弈

　　2026年算力芯片的“主桌”上早已不是只有英伟达、AMD风光无限，“非GPU”的玩家们，再也藏不住了。

　　以前提起AI算力，大家第一反应都是GPU，毕竟它垄断市场这么多年，几乎成了AI的“标配”。但最近几年，风向彻底变了——TPU异军突起，一批被称为“高阶TPU”的新势力更是直接杀疯。

　　2025年12月24日，英伟达以200亿美元将AI芯片独角兽Groq的核心团队与技术收入囊中；2026年1月15日，OpenAI与AI芯片独角兽Cerebras签下一笔价值超100亿美元的订单，计划部署750兆瓦的Cerebras晶圆级系统。

　　这两起相隔仅数周、总价值超过300亿美元的交易，共同勾勒出当前AI算力军备竞赛的图景：一边是OpenAI扶持挑战者，寻求打破供应链依赖与效率瓶颈；另一边是英伟达以攻为守，砸重金将潜在的技术路线挑战者纳入麾下，围绕底层架构的“定义权”争夺从幕后走向台前。

　　今天笔者就用最接地气的话，把GPU、TPU、“高阶TPU”讲明白，看看它们到底谁更能打，未来的算力格局又会被谁改写。

　　其实这三者本质都是“算力工具”，但定位完全不同。就像家里的工具，有的全能，有的专精，有的则是升级款“黑科技”。

　　而这三者，恰好对应了当前AI算力领域的三大技术流派：以GPU为代表的通用并行计算派、以传统TPU为代表的ASIC固定数据流芯片派，以及以一批新兴的新架构芯片为代表的可重构数据流芯片派，三者形成了共生又有区隔的技术架构、商业生态与发展路径，像一场围绕未来统治权的“三国演义”。

　　GPU最早是为了玩游戏、做图形渲染设计的，核心优势就是并行计算——“能同时干很多事”，快速完成批量任务。而后来大家发现，这种“并行干活”的能力，刚好适配AI训练和推理，于是，GPU就成了AI算力的“主力军”。

　　但GPU的短板也很明显：它太“全能”了，没有专门为AI优化，干活时需要频繁来回搬运数据，不仅费电，速度还慢。

　　就像一个万能维修工，什么活都能做，但修精细活不如专业师傅，AI计算里的“张量运算”，对它来说就是“吃力不讨好”，效率偏低。

　　尤其是在AI进入大规模应用，从前期模型训练转向海量、实时的推理任务后，极致的成本控制、更低的延迟与更高的能效成为最关键诉求，这恰恰暴露出通用型GPU在某些推理场景下的“性能过剩”与效率不足，也为其他技术路线提供了破土而出的空间。

　　市场层面，GPU阵营的优势十分明显。英伟达凭借其GPU和成熟的CUDA软件生态构筑了AI算力领域近乎垄断的护城河，市值在三年间一路高涨，成为史上第一家市值5万亿美元上市公司。

　　国内市场亦是一片繁荣，“国产GPU四小龙”摩尔线程、沐曦、壁仞科技和天数智芯已全部上市，摩尔线亿元，折射出国产替代战略下的强烈市场预期。

　　它的唯一目标，就是把AI的“张量运算”干到极致。TPU就像一个专业的AI维修工，别的活可能不会，但处理AI相关的计算，速度和效率都远超GPU。

　　TPU属于ASIC（专用集成电路）范畴，技术核心是为待定算法（如矩阵乘法）固化的电路，硬件与软件深度绑定，是“专芯专用”的终极形态。其核心优势在于极致性能与能效，在特定任务上表现最优，量产成本低（针对固定需求），能满足巨头供应链自主需求，最佳应用场景是规模化固定任务，比如云端巨头内部推理、智能手机SoC中的NPU、自动驾驶芯片等。

　　它的核心秘诀就是数据流式计算——“少跑腿、多干活”：数据不用来回搬运，在芯片内部就能完成全部计算，既省电，延迟又低。比如谷歌的TPU v7，同等算力下，功耗只有英伟达B200 GPU的一半，能帮企业省不少成本。但TPU也有缺点，太“专情”了，只擅长AI任务，玩游戏、做视频编辑这些活，它根本干不了，而且还和谷歌的生态绑定，灵活性不够。

　　ASIC路线的崛起，本质上是大型云厂商和科技巨头对算力主权和成本控制的迫切需求，这条路径舍弃了灵活性，追求为特定算法深度定制的性能与能效巅峰。

　　随着AI成为业务核心，每年数百亿美元的芯片采购费用促使科技巨头纷纷走上自研ASIC之路，除了谷歌的TPU，还有亚马逊的Trainium、Inferentia，微软的Maia，以及Meta的MTIA芯片等。

　　它们的商业逻辑在于，通过硬件与自身软件栈的深度垂直整合，在规模化部署中持续压低“每Token成本”，构建长期竞争优势。

　　这不仅催生了巨头自身的芯片业务，更引爆了庞大的定制芯片设计服务市场，博通、联发科等公司也因此成为幕后赢家，其中博通去年年中股价两个月内涨幅超70%，市值一度突破1万亿美元。

　　国内市场中，ASIC公司的估值逻辑与国家战略、国产化率提升深度绑定，享受“战略资产溢价”。寒武纪作为代表性企业，2020年7月在科创板上市，上市初期市值突破1000亿元，2024年底以387%涨幅获得“2024年股王”称号，2026年1月市值约6367亿元；昆仑芯前身为百度智能芯片架构部，2021年拆分后估值达130亿元，目前已启动港交所主板上市筹备工作。

　　TPU虽然好用，但还是不够灵活——架构固定，遇到不同的AI算法迭代，就有点“力不从心”。于是，各种基于已经被TPU验证过“便宜又好用”的数据流架构的新型AI芯片在全球可谓争奇斗艳。它们相当于TPU的“Pro版”、“ultra版”，保留高能效的前提下，不断提升芯片的灵活性。他们的秘诀是采用了一种基于软件定义硬件（software define hardware）的可重构数据流技术，也是三大流派中目前最具颠覆性想象空间的一支，其本质可看作在GPU的通用性与ASIC的高效性之间探索出的一种平衡方案。

　　可重构数据流最牛的地方，就是“能变形”——通过软件设置，就能实时调整硬件资源，适配不同的AI任务。

　　既有着TPU的高效，又有着GPU的灵活，相当于“专业师傅+万能工”的结合体。其技术核心“软件定义硬件”，是通过编译器或片上交换网络动态重构计算单元连接，平衡灵活与高效，核心优势在于兼顾灵活与高效，可在算法迭代后适配，具备确定性延迟，执行路径可预测，适合实时推理，同时能满足算法快速迭代的科研需求，最佳应用场景包括对延迟敏感的专业推理、金融交易、实时交互AI、边缘计算等。

　　这个阵营最耀的要属Groq，它的创始人Jonathan Ross曾是谷歌TPU项目的创始成员之一，离开谷歌后联合几位工程师创立Groq，还从谷歌招募了一批TPU团队成员，“We aim to create AI chips that outperform TPU.” 不难看出，Groq目标是做出一款超越TPU和GPU，专为AI推理任务而生的更高阶的新型处理器。

　　Groq主打产品是名为“TSP”的专用推理芯片，也叫做张量数据流处理器，其在设计芯片之前先行完成编译器架构，通过软件定义，让高带宽的芯片间“数据传送带”实现流水线式高效传输，在推理延时和吞吐上能够实现比传统GPU快5-18倍、能效比高10倍的表现。

　　相比TPU的性能表现，Groq的优势也已经得到数据验证。公开信息显示，在相同推理任务中，Groq芯片的首token延迟比谷歌TPU v7芯片降低20%～50%，每token成本降低10%～30%。

　　倍感压力的英伟达2025年底以200亿美元现金通过一份非独家授权协议将Groq的核心团队和技术“打包带走”（仅留下公司空壳独立运营），这一价格较Groq前一估值翻了近三倍。

　　本质上，这是一场关于未来算力格局的战略性防御布局——通过将可重构计算这一潜在威胁纳入自身体系，英伟达不仅消除了一个来自架构层面的挑战者，更将它的技术优势转化为自身护城河的一部分，可见可重构计算路线的巨大潜力。

　　除了Groq，从事可重构计算芯片开发的公司还有SambaNova等，2025年10月，英特尔有意收购SambaNova，被解读为“英特尔AI战略的关键一跃”，2个月后双方进入收购谈判阶段并签定收购意向书。

　　随着高阶TPU的崛起，全球算力市场已经不是GPU一家独大了，现在已经形成了“三足鼎立”的格局，各家都有自己的王牌——GPU坐拥CUDA生态城池，正遭受ASIC与可重构数据流“新势力”的攻城，ASIC凭借极致专用性，而可重构作为新兴势力正试图开辟一条新的王者之路，三大技术流派之间的竞合与消长将共同决定万亿美元AI算力产业的最终走向。

　　值得期待的是国产“高阶TPU”，也在悄悄发力。在这场全球算力混战中，我们国产芯片企业没有缺席，一直在紧跟全球趋势，聚焦高阶TPU的核心技术——可重构数据流架构，毕竟这是最贴合国内AI发展需求的方向，也是打破GPU垄断、实现算力架构换道超车和国产替代的有效路径。

　　国内已经有不少企业实现了技术突破，开始商业化落地。像是基于清华大学技术积淀的清微智能，它和Groq、SambaNova同期起步，同样选择了布局新型数据流处理器，深耕可重构技术，推出的自主研发芯片，不仅技术路线和Groq、SambaNova一脉相承，还更贴合国内的场景需求，据其官方报道，已在十余座智算中心规模化部署“软件定义硬件”的可重构架构的服务器和超节点。

　　在国内市场，可重构架构的资本叙事与产业自主的期待紧密结合。北京、上海等一批以可重构架构为核心技术标签的企业陆续发布产品，并获得资本青睐和政策扶持，启动上市相关进程。清微智能去年12月初完成了超20亿元C轮融资，得到北京“市级+区级”双重国资的联合支持，同时还是国家大基金二期投资的唯一新型架构算力芯片企业，足见可重构架构高度契合国内供应链自主与技术超车的现实需求。

　　从GPU的垄断，到TPU的崛起，再到铸入软件定义神器（SDH）后的“高阶TPU”巨大的想象空间，算力架构的迭代，本质上都是为了适配AI的发展需求。以前大家拼制程、拼算力堆砌，现在拼的是架构、是能效、是灵活性，而非GPU赛道，已经成为未来的核心方向。

　　对于我们来说，“高阶TPU”不仅是打破国外算力垄断的新机会，也是国产算力发展的关键。这需要更多的国产企业，在这条赛道上勇于探索，砥砺前行，毕竟这是一条没有既有经验和IP可循，没有成熟生态可依赖的技术路线。但随着flagOS等国产软件和指令生态的不断突破，借助中国完备的集成电路封测创新体系，未来一定能在全球算力格局中，拥有属于我们自己的话语权。

　　声明：本文仅为信息交流之用，不构成任何投资建议，股市有风险，投资需谨慎。返回搜狐，查看更多

算力重塑世界！AWE 2026芯片产业高峰论坛将开幕追觅芯际

算力革命：2026年中国算力基础设施行业全景重构与价值跃迁

PG（中国大陆）电子·控股有限公司-官网