AI时代来临,怎样更好管理电力预算?

SE:我们看到目前对于电力的消耗大幅增加,这全是人工智能导致的吗?还是有其他原因?

Yeager:有几件事情正在发生。长期以来,我们一直在缩小工艺节点,因此,仅由于处理这些工艺,功率密度就一直在增加。在此基础上,数据传输也是电力的巨大消耗者。而人工智能正在推动计算的发展。

Davis:从设计方面来说,我们一直用同样的资源实现更多的功能。但现在我们面临着光掩模尺寸的限制,尽管现在正在突破这一限制。但我不想熔化硅,那么我如何才能在竞争中获胜呢?答案是,你需要越来越多的技巧来满足这些要求,无论是用于通信还是高性能计算。总的来说,你可以看到电力需求在不断增加——除非功耗是限制因素,例如在移动设备中。

Faisal:这为创新提供了很多机会。每个人都必须担心裕度和时序,以及为了弥补这一点而对芯片设计进行的所有过度设计。这些都需要通过利用从晶体管到系统的各个层面的技术来消除。但时序至关重要。时钟的质量直接告诉你Fmax和Powermax,还有很多问题需要解决。

Roessig:多年来,将电力从A点传输到B点的标准方式一直运行良好。但随着芯片的密度和功率水平增加到目前的水平,以前从未出现过的瓶颈开始显现。这相当于试图将过多的水推入和过去一样大小的管道。我们已经到了这样的地步,仅就封装特性而言,你只能将这么多的电力传输到芯片中。因此,这在很大程度上是现代功率密度超越了将电力从A点传输到B点的机械能力的一个例子。

SE:如果继续延这个轨迹发展,会发生什么?我们能继续添加更多的设备吗?

Faisal:由于需求、应用和工作负载的增长,我们将继续沿着这条轨迹发展。人工智能就像原材料一样。你可以围绕汽车、移动和边缘设备的应用来制造特定的东西,这不会停止。这意味着在编程时,系统开发人员和软件开发人员需要有很强的意识。当我编写这行代码时,电力传输会发生什么?轨迹不会改变,所以我们必须围绕它进行创新。

Davis:人类擅长做更多的事情,少即是多。但这有什么价值呢?我们愿意为此付出什么?在某些应用中,这是值得的。在其他应用中,功率密度或持久的电池寿命更为重要。因此,市场正在分化为不同的应用。在高端应用领域,你需要电力来获得价值,你将继续沿着这一趋势发展。

Roessig:几年前,只有像英特尔或英伟达这样的公司才能生产出难以供电的芯片,现在任何人都可以做到。今年,我们开始看到,在每个人都可以接触到的工艺中,这些芯片的供电难度有多大,而且情况只会越来越糟。我认为这个瓶颈在短期内不会得到缓解。

SE:设计工具和方法论能够处理如此多的电力需求吗?这是至关重要的,因为现在不仅仅是英特尔一家公司了,大约30%-35%的设计将流向正在创建大型数据中心的系统公司?

Roessig:这是一个多学科问题,也是一个大问题,它绝对与工具息息相关。例如,我们生产转换器,但我们不是一家芯片公司。我们共同设计芯片、封装、电感、电容。所有这些都必须融合在一起。我们已经过了将所有东西都视为单独零部件的阶段,无法实现这种速度和并行性。

Davis:软件通常落后于硬件的创新。软件需要做什么?目前,我们可以管理软件,可以完成设计,所有这些公司都在将芯片推向市场就是明证。工具是否限制?我认为没有,但它们可以提高效率。那么我们能以更低的成本做到这一点吗?我们能否创造更多的自动化,以便能够更快地探索这些方面并获得更好的优化?对于Hans提到的许多技巧,我们将做专门的事情而不是通用的事情,这适用于所有算法。你必须变得更加专业,而这需要软件提供更多的探索。

Yeager:我仍然认为存在差距。要真正做到这一点,我们不能在“电源分配网络”完成后使用这些工具并运行提取。当你在设计过程中达到那个阶段时,要么你正在流片,要么你已经错过了一年或一年半的流片时间。不管怎样,我们必须将电源分配网络(PDN)分析等内容纳入开发的架构阶段。我们需要能够简化问题,只解决我们需要解决的部分,因为这个问题太复杂了。我们现在发现,你必须将功耗问题一直带到架构阶段和高级框图中,因为它将决定你的产品的成败。

Faisal:还有另一面。您可以在硅片(由电路、IP和传感器组成)中实现智能,来进行设计权衡和裕度权衡。这样,您就可以将设计挑战转移到硅片中,硅片会自动检测和纠正问题。自适应时钟就是一个例子。您可以感知到电源网络发生了什么。如果出现电压下降,可以延长时钟并降低最小速率。这在芯片级进行分析、是非常复杂的。您需要工作负载、各种模型和提取——而不仅仅是RC提取或LT提取。您还需要电感,这更加困难。这是一个巨大的机会,也是绝对必要的。我期待着有一天布局布线工具可以在设计时自动将这些智能传感器放入其中。这与大家都在谈论的全面上下协同设计相一致。

Davis:这也是与变化的平衡。您是否留有余地以达到六西格玛,还是在达到六西格玛时进再行调整?

SE:考虑到人工智能的增长速度,我们是否会遇到无法再做这些事情的问题?

Yeager:这又回到第一个问题。我们进行优化并实际降低总功率的方法之一是让芯片和计算更紧密地结合在一起。这会增加功率密度问题,因此它变成了电力输送和热挑战。我们试图实现的是降低数据传输的功耗和开销。这是我们正在走的轨迹,并将继续发展和改进。

Davis:这是一个经济问题。如果我们继续沿着这条路走下去,那么在芯片级、系统级和计算中心级,成本会有多高?功耗取决于通信成本和计算元件本身。我们使用晶体管来进行计算,还有使它们协同工作的电线和通信。因此,chiplet可以让我们把东西放得更近,从而降低成本。你可以对计算元件之间以及计算中心机架之间的距离做同样的事情。如今的超级计算机运行时消耗的功耗为兆瓦级。有人预测它们会达到几十或几百兆瓦,这相当于一个城市的耗电量。我们能容忍这种情况吗?嗯,这取决于我们能从中获得的价值。就个人而言,我们愿意为此付出多少?所以是的,我们会遇到一些情况,我们将继续在所有这些可以减少计算元素之间通信成本的领域进行创新,这将使我们能够继续在有价值的领域进行扩展。

Faisal:每次向ChatGPT提问时,就相当于让一个60瓦的灯泡亮两到三分钟。现在试着每天这样做1000万次。顺便说一句,据预测,未来四到五年内将有数百亿次查询,所以问题很大,你可以算一下数字,这绝对是荒谬的。每个层面都需要创新,从后端通孔开始。作为一个行业,我们会想办法解决这个问题。关键是每个操作或每个问题的效率。这是衡量标准,甚至布局设计师都应该意识到这一点。这就是你创新的方式,即使这不是他们的问题或他们要负责的事情。软件人员也需要知道这个指标,部分原因只是教育,这不仅仅是我在编码时的内存使用情况,它也关乎功耗和能耗,所以我需要知道我的代码运行时的成本是多少。

Davis:目前,人们都在研究节能算法。例如,“不要按照你一贯的方式进行排序,如果你这样做,效率会更高。”麻省理工学院对此进行了大量研究。

Roessig:不过,归根结底,这将是一场宏观经济讨论,讨论我们获得的价值与需要消耗多少电力有关。在零部件层面,封装只能承受2千瓦的电力,因为我们无法散发热量。所以现在我们必须将两个芯片放在一起。最终的限制因素是所有这些功率的汇总与我们获得的价值之间的对比。我们将在算法和其他所有方面提高效率。但如果你修建一条更大的高速公路,就会有更多的汽车出现。最终,这将是价值与功率之间的权衡。

免责声明:本文章如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系