阿里云称新技术大大减少了英伟达AI GPU的需求量阿里云表示，其新的Aegaeon池化系统在Model Studio市场内部进行的多月beta测试中，将服务大型语言模型所需的英伟达GPU数量减少了82%

阿里云称新技术大大减少了英伟达AI GPU的需求量

阿里云表示，其新的Aegaeon池化系统在Model Studio市场内部进行的多月beta测试中，将服务大型语言模型所需的英伟达GPU数量减少了82%。该结果发表在2025年ACM操作系统研讨会（SOSP）上，表明云提供商或许能够从现有芯片中提取更多的推理能力，尤其是在像中国这样英伟达最新H20供应受限的市场中。Aegaeon是一种推理时调度器，旨在最大化GPU在具有突发性或不可预测需求的多个模型中的利用率。通过在token级别虚拟化GPU访问，允许它在共享池中调度微小的工作片段。这意味着一个H20可以同时服务于多个不同的模型，系统范围内的“有效产出”提高了九倍。

—— Tom's Hardware