体育游戏app平台并在英伟达H100 GPU上达成最高8倍的性能加快-开云「中国」Kaiyun·官方网站登录入口

发布日期：2026-05-08 08:04 点击次数：146

好意思国东部时分3月26日，存储芯片股集体重挫体育游戏app平台，闪迪跌超11%，希捷跌逾8%，超威半导体、西部数据跌逾7%，好意思光科技跌近7%。

业内东谈主士分析，这一波动源自谷歌询查院行将在海外学习表征会议（ICLR 2026）上得当亮相的学术论文，该询查推出了一种新式AI内存压缩工夫“TurboQuant”。

谷歌声称，该工夫可将诳言语模子推理中的缓存内存占用压缩至六分之一，并在英伟达H100 GPU上达成最高8倍的性能加快。

AI模子初始时存在一种“责任内存”，即KV缓存（Key-Value Cache）。每当模子惩办信息、生成回当令，KV缓存便会速即推广，且险峻文窗口越长，缓存占用的内存越大。

谷歌新内存工夫炸翻传统存储芯片商场大厂集体受挫

TurboQuant现实上是一种极致的量化压缩算法，传统量化身手需要在压缩精度和出奇存储支出之间谐和，而谷歌团队通过PolarQuant（极坐标量化）和QJL（量化JL变换）两项改动，达成了在“零蚀本”前提下将KV缓存压缩至3-bit精度。

Cloudflare首席实施官将这一效用称为谷歌的“DeepSeek时刻”，合计其有望像DeepSeek相同，通过极致效用大幅拉低AI的初始资本。

不外，摩根士丹利在最新研报中指出，商场对此存在误读。该工夫仅作用于推理阶段的键值缓存，并不影响模子权重所占用的高带宽内存（HBM），也与AI西席任务无关。

分析师强调，所谓的“6倍压缩”并非存储总需求的减少，而是通过效用进步增多单GPU的隐晦量。这意味着在相通硬件条目下，不错扶持4倍至8倍更长的险峻文，或在不触发内存溢出的前提下显耀进步批惩办规模。

当今，谷歌尚未公布TurboQuant在Gemini等自研模子中的具体部署时分表体育游戏app平台，询查团队权谋鄙人个月的ICLR 2026会议上得当发布联系效用。

体育游戏app平台并在英伟达H100 GPU上达成最高8倍的性能加快-开云「中国」Kaiyun·官方网站 登录入口