您好,欢迎访问OD体育世界杯中国官网首页!

OD体育世界杯中国官网首页 华为昇腾 0 Day 支握智谱 GLM-5.2 模子, 提供全面推理优化

来源:OD体育世界杯中国官网首页 浏览次数:66

OD体育世界杯中国官网首页 华为昇腾 0 Day 支握智谱 GLM-5.2 模子, 提供全面推理优化

IT之家6月18日音问,“昇腾AI配置者”公众号6月17日告示,昇腾0Day支握GLM-5.2,为编程与长程任务提供全面推理优化。

据官方先容,现在昇腾A3系列居品依然支握GLM5.2的单双机以及大EP推理部署。针对GLM5.2模子的结构秉性,昇腾围绕以下几个裂缝期间开展了高效推理优化:

MOE大会通算子:将民众路由、加权臆度与适度归约会通为调处算子,排斥中间张量冗余读写,显耀进步臆度效果。

通讯与臆度会通:通过将AllReduce优化为ReduceScatter与AllGather通讯原语,并与矩阵臆度酿成紧耦合活水线,完毕通讯蔓延的有用隐敝。

珍眼光前络续与多Token预测优化:继承珍眼光前络续会通算子,聚积多Token预测(MTP)机制的加快,进步单步生奏效果。

高并发搬动与预填充蔓延机制:在高并发混杂负载场景下引入预填充蔓延搬动,平滑臆度峰值,缩小Prefill阶段对Decode阶段的资源霸占。

智能缓存与索引优化:聚积IndexCache期间缓存高频民众旅途与静态路由表,并继承ChunkedPrefill、稀薄索引检索等门径,OD体育世界杯中国官网首页优化长高下文推感性能。

PD分别与PrefixCache:通过Prefill与Decode阶段分别及前缀缓存期间,压缩解码时延抖动,进步在线工作蒙胧踏实性。

IT之家留意到,智谱6月17日告示上线并开源GLM-5.2。在民众百万用户参与盲测的前端配置评估系统CodeArena上,GLM-5.2获取民众可用模子第一的线路。

官方暗示,GLM-5.2专为长程任务才调而生,特色包括:

真钱牛牛APP官方网站

Solid1M高下文:踏实支握长程任务,多个长程任务基准标明GLM-5.2的线路介于ClaudeOpus4.7与4.8之间,是名次最高的开源模子

更强体感,更实用的Coding才调:在主流编程基准上,GLM-5.2保握开源SOTA,与ClaudeOpus4.8处于可比区间

极致Infra优化,Day0脱手在国产算力平台:在1M高下文长度下,将单元token的FLOPs缩小至2.9倍;已在Day0完成与华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯、沐曦、海光、壁仞等国产算力平台的推理适配;预测下半年昇腾950超节点上市后,也将成为GLM-5.2强盛的算力底座

OD体育世界杯中国官网首页

联系我们

电话:

邮箱:OD体育世界杯

地址: