OTA的代码变化会以意想不到的方式给系统带来压力。

 

OTA更新可以在较长的芯片和系统寿命中减少系统过时的现象,但这些更新也会影响可靠性与性能,并影响各种资源,如内存和各种处理元素的使用方式。

 

人们已非常熟悉智能手机和电脑的OTA更新,其中的软件堆栈(固件、操作系统、驱动程序和应用程序)需要频繁地注入代码来解决问题,增加功能或解决网络安全威胁。但在工业机械、汽车和数据中心等应用中,设备规划的使用寿命更长,这些更新会以意想不到的方式给设备或系统的不同部分带来压力。

 

与智能手机不同,一次更新的故障可能需要快速的后续更新(其他软件或固件的一系列更新可能会受到这些更新的影响),当涉及安全或关键任务功能时,出错的余地要小得多。多个系统的任何更新都会进一步给已经在极端条件下工作的系统带来压力,从而以从未设计使用过的方式利用电路。

 

在机械方面,这些系统可能会受到振动和偶尔的冲击,以及温度大幅波动的压力。在电气方面,电路可能因快速启动产生的快速浪涌电流、老化效应以及来自各种来源的多种类型的噪声而受到压力。因此,我们需要很好地理解OTA更新对这些系统的影响,它可能因不同的实施而有所不同。

 

尽管如此,这些更新对于避免(或至少推迟)电子元件的物理更换是至关重要的。在车载应用中,车辆可能会在路上行驶几十年。在此期间,与其他车辆和基础设施交互的能力将不断发展,协议和标准也将不断发展。

 

更新可以改变单个电路或整个系统的基本行为。这一点在电池管理方面尤其明显,老化可能会减少一次充电的续航。

 

Apple一直在提供一个“性能管理”选项,降低老款iPhone的整体性能,以补偿这些老化效应。同样的方法也可用于电动车,但不是降低性能,而是每次充电续航里程会减少。

 

西门子EDA汽车测试解决方案经理Lee Harrison说:“电池技术也是这样的过程,系统会收集关于电池性能的数据。随着车辆的定期OTA更新,他们正在调整电池管理,以根据电池的老化情况提供最佳性能。我们可以对车辆中的其他电子设备进行同样的操作。但这也依赖于一个假设,即这些系统受到同样的老化影响。如果它是完全随机的,那么你对这些数据就无能为力了。”

 

不过,更新并不是在所有地方都有效,而且即使有效,在某些时候仍然可能需要新硬件。

 

Harrison说:“我们确实与一家OEM讨论过,该公司实际上在车辆的设计周期和生命周期中至少考虑一次硬件更换,以解决在车辆使用期间可能出现的任何挑战。我们对嵌入式分析技术所做的努力是使它尽可能地可配置。因此,你可以在车辆的整个生命周期内对其进行更新,并且希望我们已经使其足够灵活,以解决那些新威胁。我们不会捕捉所有的威胁,但它足够灵活,在这方面做得相当好。”

 

为更新做计划

 

更新的影响可能远远超出单个设备或子系统。它们常常影响到供应链的其他部分。所有这些都需要在设计之初就加以考虑。

 

Arm的研发人员Rob Aitken说:“从架构开始,你必须考虑在CPU、周围的逻辑、I/O等实际需要存在的东西。提供数据需要什么?你能用这些数据做什么?我们在IoT领域遇到的很多问题是,如果你要做某种设备管理,作为芯片生命周期管理的一部分,你如何进行升级?软件如何更新?设备如何信任软件供应商?云服务如何知道要信任设备?在这个过程中,有很多问题和挑战。”

 

 

Arm的容器化方法,现在是SOAFEE(Scalable Open Architecture for Embedded Edge)的一部分,有助于隔离和减少OTA更新的影响(资料来源:Arm/soafee.io)

 

在大多数任务和安全关键应用中,系统都与其他系统相连。通常情况下,它们需要同步更新,这意味着更新必须经过极其周密的考虑。

 

Synopsys市场和业务发展副总裁Steve Pateras说:“如果你看一下汽车设计自动化,它不仅仅是芯片制造商,因此,你可能会与集成商、Tier 1、OEM交谈,但也是这些系统的终端用户。你希望随着时间的推移优化性能。因此,当随着进入生命周期的后期阶段时,机会的范围就会扩大。”

 

但是,供应链规模越大、越多样化,出现数据故障的可能性就越大。Pateras说:“这是一个问题,因为你确实想在整个生命周期阶段共享数据,如果我有关于晶圆级测试的知识,或者如果我有设计特征信息,我可能想在现场使用这些信息来了解趋势。同样,如果我得到了现场故障信息,如信号随时间推移的衰减,我希望能够将其与我的原始晶圆数据进行交叉关联。毫无疑问,他们希望将数据向前和向后反馈。”

 

这些数据涉及的不仅仅是一个芯片或一个在现场使用的系统。它还涉及用于制造这些芯片的设备,这些设备也在进行定期的OTA更新。

 

KLA的战略合作高级主管Jay Rathert说:“在我们相邻的空间(设计和测试)有很多协同作用,而且随着越走越远,它变得越来越难,是什么导致了你的失败?工具在正确的地方吗?配方是否在做正确的事情?我们的数据是否被正确地使用?

 

行业的下意识反应一直是,当有疑问时,关闭数据流并保持一切在内部。但想要进入下一阶段,你必须开始分享这些数据,因为这些数据需要通过供应链传递。现在,供应链比以前更加紧密,更加一体化,有一些发生在设计中的事情,过程检查将从了解中受益。还有一些发生在过程中的事情,检测将从了解中受益,并进一步通过预烧和SLT,一直到汽车和监控数据。”

 

在车载应用中,一个芯片的寿命通常是十年或更长时间。对于工业设备,可能是25年。设备方面的另一个挑战是,芯片可能需要在数年后复制,但设备也必须有足够的时效性,以便与晶圆厂的其他设备一起工作。

 

Advantest的业务发展经理Don Blair说:“新的设计供不应求。汽车行业的不同之处在于它们使用时间要长得多。一部手机的寿命可能只有18个月,然后就会转向完全不同的东西。在汽车行业,我们的大多数客户要求我们保证10年的系统、仪器和我们的系统本身的可用性,包括他们需要使测试单元工作的一切。因此,我们必须始终保证10年的可用性。这是汽车行业的一个不同之处。他们一直有新的设计,新的车型采用较新款的芯片,但他们也在使用较旧的芯片生产相同型号的汽车多年。”

 

安全更新安全性在芯片生产的每一个方面都起着很大的作用,在现场也是如此。安全漏洞会出现,需要进行安全更新。而且,无论今天的安全性有多好,十年后也不可能被认为是最先进的安全措施。

 

英飞凌部门总裁Thomas Rostock说:“德国政府两年前开发了一个标签,一开始是自愿的,首先针对的是路由器。其中一个条件是,你要在路由器的生命周期内更新安全信息,或者至少在一定时间内更新。为了安全起见,这一点是超级必要的。”

 

Rostock说,这种方法可能会蔓延到其他领域,因为供应商开始把持续的安全作为一个差异化的因素,并且建立了被认为是可接受的标准。这在汽车和航空航天等领域尤为重要,因为这些领域的安全和安保是紧密交织在一起的。

 

Riscure的CEO Marc Witteman说:“如今,我们收到了来自政府机构的问题,它们担心自己的整个汽车保有者。想象一下,你的国家有一个敌人想要攻击所有的汽车。这将是一场灾难。商店里的食物会耗尽。任何公共服务将不再工作。这不仅仅是对消费者的威胁。这是一个系统的威胁。”

 

其他行业也在面临着类似的挑战。Witteman:“我们有时会看到银行使用旧的、不安全的算法。原因是可能有一些人没有通过浏览器进行更新,他们想确保这些人仍然可以访问网上银行。还有一些黑客声称,他们可以用一块铝箔包裹OTA天线来入侵汽车。这将使LTE信号降级为2G信号,这是众所周知的问题。它没有被车厂禁用的原因是,你可能会在一些没有LTE覆盖的城镇上开车。所以那些不安全的算法仍然存在。即使你有一个技术先进的心态,总是想在安全的前沿,但变化有时是缓慢的。有些人没有最新的技术,有些车厂希望在美国或其他地方实现100%的网络覆盖。这就是OTA如此有趣的原因。”

 

安全是一个持续的问题,许多更新至少包含一些安全修改,以保持与不断变化的网络威胁同步。

 

Arm架构产品管理总监Mark Knight说:“安全很少是一个永久的状态。一个在2012年生产的产品,如果不进行维护,在2022年不可能是安全的。而一个在2022年生产并被认为是安全的产品,在2032年可能不安全。安全开发生命周期的一个重要目标是确定对可预见的安全威胁的适当反应,以便产品在整个预期的生命周期内得到保护。这涉及到对威胁的可能性和潜在影响的理解,从而使产品能够被定位在风险曲线的正确部分。安全风险的缓解措施可以采取多种形式,技术、补偿性控制或商业措施。由经验丰富的第三方或独立测试实验室进行渗透测试和评估,是确保产品免受最新攻击技术入侵的两种最佳方法,因此可以增加产品的耐久性。”

 

不断发展的产品和工艺

 

减少过时和提高可靠性是一个制胜的市场策略,特别是对于汽车和家电等高价商品。但技术也是以自身为基础的,随着现场终端设备的数据越来越多,它可以被应用于新的和现有的设备。

 

英飞凌的Rostock说:“公司希望获得数据的原因之一是为了改进他们的产品。但如果产品随着时间的推移而改进,对用户也有价值。如果电机算法改进了,就可以升级了。作为消费者,你可以下载一些对你有直接价值的东西。或者你的机器可以和你或另一台机器进行交互,报告说它有一个问题。”

 

其他人也表示同意。PDF Solutions的CEO John Kibarian说:“人们希望从芯片上得到数据,以便了解它的老化情况。你开始看到IP行业提供额外的传感器。你需要测量很多东西。但这与任何大的控制系统没有什么不同。如果你有一个大的办公大楼,你会想要测量温度和湿度以及空气质量。同样的事情发生在芯片上,因为一个芯片需要向云端报告,因为它有一个ADAS芯片,而且它老化的很快。这是一个大问题,我们看到传感器的采用首先是在ADAS等关键任务的应用中。”

 

在先进的封装中,这可能会变得更加复杂,芯片可能会共享内存或I/O或其他资源。Teradyne精密电源和模拟工厂应用高级经理Chuck Carline说:“在汽车安全领域,我们看到更多这样的设计,在一个封装中包含多个芯片。这当然会对晶圆测试产生影响,因为这些节点并不都是封装出来的。它们只是相互连接。一旦你把两个芯片放在一起,有些功能就无法测试。”

 

这意味着封装中的芯片需要被监控,至少需要有一种方法将它们连接到任何为保证可靠性而需要的更新。而且它为在整个流程中和进入现场时保持一切同步增加了更多挑战。

 

随着更多的AI被包含在设备中,它在更新方面增加了另一个层次的复杂性,因为AI算法会定期更新。这包括从汽车中用于识别道路上的物体的逻辑,到用于确保芯片被完全检查的设备。

 

Bruker董事兼业务经理Hector Lara说:“我们有多年前建立的前馈算法的IP。所以当我们扫描一个结构时,我们可以真正了解拓扑。如果我们看到任何重复,我们就开始通过一些AI算法来加快扫描速度,并保持在非常慢的扫描中会有的准确性。如果有可预测的重复结构,我们可以进一步加快速度。我们在AI中应用了一些,我们关注的一些东西是更大的区域,使用AFM和分析器的组合,都是在AFM分辨率下。但是,如果你再做同样的事情,必须确保不会把尖端撞到一个结构上。我们基本上是导航向一个精确的点。”

 

简单地说,精度很重要。而对于供应链和从设计到制造流程中的所有设备和流程,更新可能会以意想不到的方式影响这种精度。

 

尽管如此,每个过程、每个芯片,以及在这些芯片内部或之上运行的每一级软件,更新都是必不可少的。但OTA更新也会使芯片的长期可靠性和性能复杂化,也会使接近或连接到正在更新的其他芯片或系统复杂化。

 

在较老的节点上,当连接性有限,芯片主要是为插槽设计时,这种情况通常不会被发现。但随着电子系统预期寿命的增加,以及更多与安全或关键任务有关的应用,要做好这一点变得越来越复杂,越来越困难。

 

[参考文章]

Hidden Impacts Of Software Updates — Ed Sperling