高性能计算(HPC)和超大规模存储不仅让我们得以在超级互联和人工智能的帮助下,动动手指就能轻松获取各种信息;更是我们如今数字生活中不可或缺的一部分。从数学模型到气象预测,超级计算机正在协助我们改善各个领域的计算结果,而云数据中心则是确保数字生活正常运行的基础支柱。在当今时代,数据不仅在数量上远超以往,还面临着需要进行远距离高速传输的挑战。随着芯片制程节点不断微缩,逐渐逼近制造领域的极限,Multi-Die系统应运而生,为性能提升开辟了新的可能性。
随着电子系统变得愈加复杂,静默数据损坏(SDC)等错误时有发生,芯片老化、热挑战和功耗挑战等问题也同样存在。这些问题非常棘手,如果处理不当,就会导致灾难性后果,尤其是在大规模处理此类问题的情况下。
除此之外,对于SoC开发者来说,由于复杂性的提高,他们迫切需要采用芯片生命周期管理(SLM)策略,以确保芯片的可靠性、可用性和可服务性(RAS)。了解蕞终产品的内部情况并认识长期的RAS影响,对于设计的成功至关重要。
芯片生命周期管理策略是什么?
如今,我们不仅需要在生产和发货时确保芯片能够正常运行,还需要在整个生命周期内对芯片工作状态进行监控和测试,尽可能在问题甚至故障出现之前提前进行预警甚至修复。对于SoC 和 Multi-Die产品,这一点攸关重要。为了做到这一点,开发者需要掌控和访问芯片内部元件,以调试和读取数据,并进行适当的分析来确定是否存在问题。借助这些信息,开发者能够及时维护系统,避免问题变得无法挽回。