阿里云称新技术大大减少了英伟达AI GPU的需求量
阿里云表示,其新的Aegaeon池化系统在Model Studio市场内部进行的多月beta测试中,将服务大型语言模型所需的英伟达GPU数量减少了82%。该结果发表在2025年ACM操作系统研讨会(SOSP)上,表明云提供商或许能够从现有芯片中提取更多的推理能力,尤其是在像中国这样英伟达最新H20供应受限的市场中。Aegaeon是一种推理时调度器,旨在最大化GPU在具有突发性或不可预测需求的多个模型中的利用率。通过在token级别虚拟化GPU访问,允许它在共享池中调度微小的工作片段。这意味着一个H20可以同时服务于多个不同的模型,系统范围内的“有效产出”提高了九倍。
—— Tom's Hardware
阿里云表示,其新的Aegaeon池化系统在Model Studio市场内部进行的多月beta测试中,将服务大型语言模型所需的英伟达GPU数量减少了82%。该结果发表在2025年ACM操作系统研讨会(SOSP)上,表明云提供商或许能够从现有芯片中提取更多的推理能力,尤其是在像中国这样英伟达最新H20供应受限的市场中。Aegaeon是一种推理时调度器,旨在最大化GPU在具有突发性或不可预测需求的多个模型中的利用率。通过在token级别虚拟化GPU访问,允许它在共享池中调度微小的工作片段。这意味着一个H20可以同时服务于多个不同的模型,系统范围内的“有效产出”提高了九倍。
—— Tom's Hardware