2026-06-04 15:29:31

通宝TB222-手机版官网- 昇腾「减负」、鲲鹏「铺路」：中国计算产业生态如何填平开发者的「踩坑」时代？

导语：鲲鹏昇腾生态，正于从“能用”进入“好用易用”的新阶段。

一个算力生态从“能用”到“好用易用”，中距离着甚么？

已往几年，国产AI算力行业持久存于一种割裂：硬件参数不停刷新，可是当开发者真正落地时，年夜量时间却依然耗损于情况配置、异构迁徙、算子适配及重复踩坑上。

跟着年夜模子练习进入千卡级协同、科学计较走向长周期不变运行，这类割裂的价钱被进一步放年夜了——开发效率自己，最先成为权衡算力平台竞争力的主要指标。

于近来的鲲鹏昇腾开发者圆桌上，一个颇有意思的征象是，不管是做高机能计较的清华团队及中科年夜团队，还有是做年夜模子预练习的AIGCode，他们评论辩论至多的，都不是芯片参数，而是开发效率。

有人提到，已往迁徙异构平台往往需要几个月，此刻一周就能完成；有人提到，已往年夜量时间被耗损于硬件适配、情况配置及重复踩坑上，此刻终究能把精神从头放回算法自己；还有有人提到，已往许多问题必需等候厂商排期解决，此刻开发者本身就能于社区里找到方案，甚至直接介入生态共建。

这些变化看似零星，但暗地里实在指向统一件事：鲲鹏昇腾生态，正于从“能用”进入“好用易用”的新阶段。

权衡“好用易用”的尺度，从来不是发布会上的参数表，而是开发者现实感知到的工程磨擦是否正于减小。也恰是于这个意义上，这些开发者的体验，成为不雅察国产算力生态演进的一组要害样本。

当算法立异卡于工程的“坑”里

已往几年，AI行业呈现了一个愈来愈较着的变化：模子迭代愈来愈快，决议落地速率的要害，正从算法转向算力基础举措措施的工程能力。特别于高机能计较范畴，这类变化被进一步放年夜。

清华年夜学地球体系模仿团队对于此深有领会。

他们所做的事情，是用AI替换传统年夜气模仿中的经验估算环节，把全世界年夜气模仿分辩率推进大公里级，让极度气候的模仿精度真正迫近实用价值。

这个标的目的的科学价值无庸置疑，但问题于在：当分辩率晋升一个量级以后，暗地里对于应的计较繁杂度，往往会呈指数级增加。

年夜气模仿素质上是一个超永劫间持续积分历程，一次完备计较往往连续数天甚至更久，中间任何一次软硬件异样，均可能致使整个使命重来。比拟互联网营业里常见的“掉败重试”，科学计较更像是于一根极长的钢丝上行走——许多使命没有“回滚重开”的余地。

更繁杂的问题来自精度。

一个天气成果的暗地里，多是数亿次浮点运算的累计成果。单次偏差也许眇乎小哉，但颠末永劫间迭代以后，偏差会像滚雪球同样被不停放年夜。

这也是为何高机能计较范畴始终夸大混淆精度、数值不变性、通讯一致性。

但比拟计较自己，更隐藏的耗损，实在来自工程生态的不可熟

已往很长一段时间里，海内算力生态总体仍处在初期阶段，硬件迭代速率远快在软件生态成熟速率。许多平台虽然已经经能用，但开发东西链、编译器、异构调理、通讯框架以和社区经验仍不完美，科研团队很难从一最先就完成体系级优化。

在是，年夜量团队只能先让步伐“跑起来”，再进入漫长的适配及调优阶段。

这象征着，科学研发与工程优化持久处在割裂状况：先解决科学问题，再转头填工程的坑。

价钱是巨年夜的：团队年夜量精神被耗损于底层情况适配与重复踩坑上，真实的算法立异却始终处在一种“列队等候”的状况。

鲲鹏怎样将开发者从“填坑”里解放出来

"鲲鹏让科研者的精神回到科研自己，不消于硬件适配上重复踩坑。"这是清华团队王一鸣对于鲲鹏最直接的评价。

这句话暗地里，实在对于应着一种开发理念的改变：团队再也不遵照“先解决科学问题，再做机能优化”的传统模式，而是于代码设计阶段就最先将硬件特征、并行方式一并纳入考量——科学研发与工程优化，从“先后接力”酿成了“并行推进”。

理念改变的条件，是平台自己能把“坑”填平。

已往很永劫间里，高机能计较平台最年夜的难点之一，就是软件生态的碎片化。许多科研团队迁徙代码时，耗时往往不于算法，而于底层依靠适配：编译链重配、通讯库重装、指令集兼容、框架重写，一层套一层。

而鲲鹏做了一件很要害的工作——尽可能连结开发情况的持续性。

王一鸣暗示，许多主流景象形象软件及依靠库于鲲鹏平台上的兼容度已经经很高，“加载几个库基本就能跑”，年夜量代码不需要年夜范围重构，就能完成开端迁徙。

这类差异，于中科年夜团队身上表现患上越发较着。

研究员陈俊仕提到，已往迁徙到异构平台，周期往往以月为单元，迁徙完成后还有要从头做机能优化，但迁徙到鲲鹏平台，一周摆布就能完成。

迁徙效率差异的暗地里，素质上是开发繁杂度的差异。

今朝主流高机能计较体系采用CPU+GPU异构模式，多套指令集并存，开发者往往需要不停处置惩罚CPU与加快器之间的数据搬运与协同问题。许多时辰，一个原本只占较少耗时的CPU函数，于运用迁徙到GPU后，可能会迅速成为新的机能瓶颈，开发者不能不重复重构并行逻辑。

而鲲鹏选择了尽可能降低这类异构繁杂性，将更多机能开释成立于通用计较架构之上。对于在开发者而言，变化最直接的一点是：年夜量原有代码无需重写就能直接运行，事情的重心最先从“搬运代码”从头回到“机能调优”。

这类变化，终极转化为了更现实的机能收益。

陈俊仕提到，经由过程组织更年夜的矩阵块，并联合NUMA（非统一内存拜候）感知的内存分配计谋，团队的新算法比拟传统要领实现平均40多倍加快，部门场景靠近200倍。

而对于在景象形象科学这种高精度、长周期计较场景，这类“少踩坑”的意义越发较着。

清华团队迁徙到鲲鹏后，最直不雅的感触感染之一，就是年夜范围长周期功课的不变性显著晋升，断点续跑机制也越发成熟。

此外，鲲鹏还有提供了适配主流景象形象开发语言的编译器、数学库及机能调优东西，让团队可以或许于一个别系完备、反馈高效的平台上快速调试参数、验证模子。当底层计较的靠得住性有了保障，研究职员就再也不需要重复排查计较偏差的来历，而是可以或许把更多精神从头放回模子自己。

社区的成熟度也于同步降低这类开发的阻力。于鲲鹏生态中，年夜部门常见问题都能从社区资猜中找到可复用的经验；更繁杂的问题，社区工程师的相应速率也充足快，开发者终究不消再持久陷于底层工程细节里。

当开发者再也不被硬件适配耗损，机能优化的重心，也最先从头回到算法立异自己。

不外，鲲鹏于做的工作，其实不只是解决"当下"的问题。

当AI基础举措措施的疆场从"模子练习"向"Agent范围化落地"迁徙，Token与内存耗损、沙箱启动速率、多Agent协同时的数据安全正于成为Agent进入财产场景以前的新一道"基础举措措施门坎"。

鲲鹏超节点架构的设计，刚好为这一趋向提供了体系级撑持。基在灵衢互联，超节点经由过程年夜带宽、低时延把分离的办事器集群构造成同一协同的计较体系——Token开消可降低约50%，沙箱百毫秒级启动，基在CCA架构的秘要计较则补上安全侧的短板。开发者不需要切换一套东西链，就能从年夜模子练习直接走到Agent部署。

昇腾正于把“堆卡”酿成体系工程

假如说鲲鹏解决的是“闪开发者少被迁徙与适配耗损”，那末昇腾面临的，则是另外一个更繁杂的问题：当年夜模子练习进入千卡级协同以后，算力竞争最先从“有无卡”，转向“能不克不及把卡真正跑满”。

2024年头，AIGCode团队的陈秋武于昇腾上一代产物上做年夜模子预练习时，整个CANN生态于他眼中还有是一片“荒原”——算子笼罩率低，自研收集布局的适配需要排期三到四个月，团队不能不投入年夜量精神去弥补生态的空缺。

但这类变化的速率，比他们预想患上更快。

约莫8个月后，CANN生态笼罩率已经经从不足三成跃升至80%到90%，“这个迭代速率让我很是惊奇”，陈秋武直言。

再到此刻，问题已经经酿成“第一可解，第二不消排期，本身技能规模内就能解决”。他给出了一个形象的比方：“2024年头是婴儿期，此刻有点像青年期。”

如今，AIGCode团队已经经于昇腾平台完成为了MoE模子预练习优化，算力使用率到达65%，靠近行业平均程度的两倍。

用陈秋武的话说，“一张卡可以当两张卡用”。

而65%这个数字，是用体系工程优化换来的，而非堆卡堆出来的。

陈秋武拆解了这暗地里的路径：焦点于在通讯与计较的协同调理。依托昇腾超节点架构，团队可以或许将千卡级集群的通讯与计较指令做到邃密的并行袒护，最年夜限度压缩芯片余暇窗口；同时为实现装满瓶子，先遵照“年夜的块MHA先装到瓶子里，再用小的块GDN填满”的要领，联合in_proj、激活函数等小算子做交融，末了QKV重组零拷贝。进一步晋升计较资源使用率。

而这暗地里，对于应的恰是CANN生态工程能力的快速成熟：预置1500余个基础算子与100余个交融算子，提供Ascend C、PyPTO等多种算子编程范式，并兼容Triton、TileLang等业界主流编程框架，深度对于接90余家主流开源社区，实现70余款海内外主流年夜模子发布即适配；同时生态加年夜对于开发者激励的投入，设立2000万生态立异激励基金，搀扶算子、加快库等范畴立异摸索，投放10000卡算力资源，保障开源社区开发者的算力需求，从东西、算力到资金，配合组成了一条从“可用”走向“好用易用”的演进路径。

对于此，圆桌主持人石侃暗示："CANN其实不只是一个冷冰冰的组件，而是已经经成了毗连极致硬件及开发者无限创造力的纽带及桥梁。"向上兼容主流计较框架、向下屏蔽硬件繁杂度，闪开发者用本身最认识的方式跑出最极致的机能——这恰是CANN迭代至今最焦点的设计哲学。

更主要的是，当这些技能能力最先转化为开发者可感知的体验时，一个更深层的变化最先呈现：开发者再也不只是生态的“利用者”，而是最先成为“共建者”。

昇腾「减负」、鲲鹏「铺路」：中国计算产业生态如何填平开发者的「踩坑」时代？

从“用”到“建”:国产算力走向自我驱动

当开发者最先往生态里写代码，而不单单是跑代码时，工作就变了。

清华年夜学、AIGCode、中科年夜——这些团队再也不只是跑模子、调参数，而是最先往生态里写代码、填坑、修路。

清华团队将基在鲲鹏平台的项目经验沉淀为行业参考，为鲲鹏社区孝敬了景象形象科学计较范畴的最好实践；AIGCode则连续推进国产算力与自研模子之间的深度协同，但愿买通从底层算力到模子练习的完备链路。

要知道，景象形象模仿与高机能科学计较，历来是算力平台能力的压力测试场——长周期、高精度、对于不变性险些零容忍，于对于芯片的要求上，处在金字塔最接近塔尖的位置。

这种团队的选择，向来不看发布会，只看能不克不及于最苛刻的场景下不变交付。他们此刻不仅"用"，还有最先往生态里"建"，自己就是一种比任何评测数据都更有份量的违书。

而这，也恰是一个生态最先自我驱动的标记。

截至今朝，鲲鹏开发者已经跨越415万，互助伙伴跨越7000家，解决方案认证跨越27000个；昇腾开发者跨越410万，互助伙伴跨越3000家，解决方案认证跨越6700个。这些数字暗地里，是无数个"清华团队"、"中科年夜团队"及"AIGCode"们每一一次工程经验、优化能力与代码资产的连续沉淀。

权衡生态是否真正繁荣的尺度，不只是开发者数目够不敷多，更主要的是，是否有愈来愈多开发者愿意把本身的工程经验、优化能力与代码资产连续沉淀进生态之中。

当生态的飞轮真正动弹起来，开发者的每一一次共定都于反哺生态，降低厥后者的门坎，鲲鹏、昇腾的计较财产生态也随之繁荣起来。

于圆桌靠近尾声时，有人提了一个问题：怎样用一句话归纳综合你们选择国产算力平台的理由？

几位开发者给出了各自差别的谜底，但有一种配合的底色：不是没有选择，而是用过以后发明值患上选。

一个算力生态真正走向成熟，也许不会于某一次发布会上被宣告，而是暗暗发生于开发者决议下次还有选它的那一刻。

当愈来愈多的清华、中科年夜、AIGCode们把本身的代码、经验及判定押注于统一套生态之上，这场从"能用"到"好用易用"的改变，也许就已经经越过了最难的那段坡。

雷峰网雷峰网(公家号：雷峰网)

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-通宝TB222-手机版官网

通宝TB222-手机版官网- 昇腾「减负」、鲲鹏「铺路」：中国计算产业生态如何填平开发者的「踩坑」时代？

推荐资讯