破局算力焦虑:凌波智芯“无链接RoCE”重构AI互联范式-新华网
新华网 > > 正文
2026 06/23 10:52:18
来源:新华网

破局算力焦虑:凌波智芯“无链接RoCE”重构AI互联范式

字体:

  近日,“溪山对话”专访凌波智芯创始人、天津大学教授李文信与溪山天使汇发起人许晖,探讨如何通过底层技术创新破解算力困局。

  算力焦虑的真相:不是车不够,是路不通

  2024年,90后天津大学教授、国家级青年人才李文信投身创业。他没有追逐热门GPU赛道,而是瞄准算力互联核心——网卡。其主导研发的"无链接RoCE架构"AI网卡,将于2026年年底启动内测。

  很多人以为算力焦虑就是缺GPU。多买卡、堆规模,问题不就解决了?

  李文信用一个比喻戳破了误区:"这就像买了10万辆法拉利,却让它们在早高峰的城市主干道上跑。路堵了,再好的车也跑不起速度。"

  大模型时代,GPU之间协同工作。当集群规模从千卡扩展到万卡,乃至十万卡,通信节点数呈指数级增长。同时,MoE已成为大模型主流架构,无论训练还是推理,GPU之间都需要频繁交换数据。网络一旦跟不上,就会出现拥塞、丢包、重传。最终GPU算得再快,也得停下来等网络把数据传过来。“一个万卡集群的实际效率会打5-6折,”李文信说,“相当于每天有4000到5000张GPU卡在空等。”

  这才是算力焦虑的真相:我们缺的不是"车",是路不通。而卡住这条路的,是InfiniBand协议,国产GPU几乎无法插足。面对困局,多数人选择在现有框架下优化。但李文信却另辟蹊径:重新修一条路。

  无链接RoCE:重构算力互联的底层范式

  这条新路,叫“无链接RoCE架构”。要理解它的独特性,先得看懂现有路线的困局。

  InfiniBand采用"全链接"架构:每两个GPU通信前,网卡都必须在硬件层面建立专属"链接通道",并持续维护序列号、窗口大小、重传计时器等复杂状态信息。即便两个GPU已通信千百次,下一次仍需重新走完建链流程。

  在HPC时代,通信节点少、确定性高,这条路是对的。但在AI时代,集群规模从千卡奔向十万卡,链接数呈指数级膨胀。网卡还没开始传数据,就已陷入“建链、保活、查表、销毁”的风暴中。最终800G物理带宽的有效利用率仅为60%左右。

  InfiniBand路线的优势源于链接,它的瓶颈也困于链接。

  李文信提出的“无链接RoCE”架构打破了这个范式。多个GPU发往同一目的地的数据请求,只需建立一个链接。数据传输与链接状态解绑,网卡不再为每一个通信请求维护独立的上下文。链接上下文硬件开销降低了90%,并发数据通讯请求数提升5倍,重传时延降低96%。

  基于这一架构,凌波智芯即将推出的400G AI网卡的性能测试已经显示出强劲的实力:All-Reduce时间降低59%,网卡吞吐量提升63%,重传时延降低96%,组网成本降低80%。

  "我们让用户以RoCE的成本,买到InfiniBand同等的体验,"李文信说,"同时为客户预留了未来十万卡规模的扩展能力。"

  溪山的另类投资逻辑:做颠覆性技术的“耐心资本”

  创业初期,李文信团队曾用FPGA做出第一版100G AI网卡。但完成后他却陷入迷茫:"这不回到老路了吗?"于是团队停下来,重新追问算力互联的真正瓶颈。正是这个灵魂拷问,催生了无链接RoCE架构。

  溪山天使汇发起人许晖作为凌波智芯最早的投资人,全程见证了这段探索历程。

  溪山在创投圈格外与众不同:它不对外募资、不收管理费、不签对赌协议。许晖的“三不投”原则更反常识:不投Pre-IPO,不投明星投资人扎堆挤份额的,不投已经盈利或号称明天就盈利的项目。这套打法背后是一个深刻判断:中国已进入硬科技创新深水区。真正改变格局的颠覆性技术,会出现在多数人看不懂、看不清、看不上的地方。

  溪山的使命,就是找到这些“非共识的创新者”,然后用足够的耐心和资源,陪他们走过从0到1最黑暗的那段路。

  李文信身上又恰恰具备溪山寻找的科学家创业者“黄金三定律”的特质:

  心之所向——突破国产算力互联瓶颈,多次打破自己的天花板,只为追求更高目标、更落地的应用实现;

  身之所往——本硕博乃至天津大学的教授经历,深耕RDMA领域深耕十几年,30多项专利和学术顶刊,包括在华为2012研究院研发经验,拥有深厚的技术积累;

  命之所在——作为90后新生代科学家,面对新兴科技算力互联赛道,“他不做谁做?”

  非共识的胜利:伟大的创新始于无人相信

  令人振奋的是,凌波智芯的技术路线与全球前沿趋势不谋而合。由Meta、微软、AMD等发起的超级以太网联盟(UEC),也提出了"无链接"的协议设计思路。但凌波智芯的方案更加务实:不推翻重来,只动网卡,对上层应用无感,对下层交换机兼容——客户把网卡插上去,就能用。

  李文信的“无链接RoCE”架构,本质上也是一场算力互联的范式革命。它不是在某一个环节上做优化,而是从底层逻辑上重新定义了网卡的工作方式、链接的管理模式与可靠性的边界。

  大风起于青萍之末,这种颠覆式创新,需要创始人对技术方向的深刻洞察和长期技术沉淀,需要团队在无人区里摸索的勇气,更需要投资人给予足够的耐心和时间。今天,世界模型、十万亿参数LLM等下一代AI技术已经呼之欲出,十万卡规模算力集群的需求日益紧迫,随着超级以太网联盟等国际力量开始朝同一方向发力,李文信当年的“非共识”正在变成“新共识”。

  这恰恰是所有颠覆性技术的必经之路:在早期,它是孤独的、不被认可的。但一旦被验证,那些曾经质疑的人会发现——路已经被人走出来了,旗帜已经插在那里了。

  李文信说:“中国科学家,也能在AI算力互联最前沿的领域,插一面自己的旗。”

  这是一个90后科学家的雄心,也是新一代中国科创家的时代答卷。他们不再问“别人做没做过”,而是问“这件事该不该做”。

【纠错】 【责任编辑:杨帆】