开云「中国」Kaiyun·官方网站 登录入口

体育游戏app平台并在英伟达H100 GPU上达成最高8倍的性能加快-开云「中国」Kaiyun·官方网站 登录入口

发布日期:2026-05-08 08:04    点击次数:146

体育游戏app平台并在英伟达H100 GPU上达成最高8倍的性能加快-开云「中国」Kaiyun·官方网站 登录入口

好意思国东部时分3月26日,存储芯片股集体重挫体育游戏app平台,闪迪跌超11%,希捷跌逾8%,超威半导体、西部数据跌逾7%,好意思光科技跌近7%。

业内东谈主士分析,这一波动源自谷歌询查院行将在海外学习表征会议(ICLR 2026)上得当亮相的学术论文,该询查推出了一种新式AI内存压缩工夫“TurboQuant”。

谷歌声称,该工夫可将诳言语模子推理中的缓存内存占用压缩至六分之一,并在英伟达H100 GPU上达成最高8倍的性能加快。

AI模子初始时存在一种“责任内存”,即KV缓存(Key-Value Cache)。每当模子惩办信息、生成回当令,KV缓存便会速即推广,且险峻文窗口越长,缓存占用的内存越大。

谷歌新内存工夫炸翻传统存储芯片商场 大厂集体受挫

TurboQuant现实上是一种极致的量化压缩算法,传统量化身手需要在压缩精度和出奇存储支出之间谐和,而谷歌团队通过PolarQuant(极坐标量化)和QJL(量化JL变换)两项改动,达成了在“零蚀本”前提下将KV缓存压缩至3-bit精度。

Cloudflare首席实施官将这一效用称为谷歌的“DeepSeek时刻”,合计其有望像DeepSeek相同,通过极致效用大幅拉低AI的初始资本。

不外,摩根士丹利在最新研报中指出,商场对此存在误读。该工夫仅作用于推理阶段的键值缓存,并不影响模子权重所占用的高带宽内存(HBM),也与AI西席任务无关。

分析师强调,所谓的“6倍压缩”并非存储总需求的减少,而是通过效用进步增多单GPU的隐晦量。这意味着在相通硬件条目下,不错扶持4倍至8倍更长的险峻文,或在不触发内存溢出的前提下显耀进步批惩办规模。

当今,谷歌尚未公布TurboQuant在Gemini等自研模子中的具体部署时分表体育游戏app平台,询查团队权谋鄙人个月的ICLR 2026会议上得当发布联系效用。



栏目分类



Powered by 开云「中国」Kaiyun·官方网站 登录入口 @2013-2022 RSS地图 HTML地图