为什么烧录 Nand Flash 经常失败?为什么烧录成功了,一部分 Nand 芯片贴板之后系统却运行不起来?…,等等,问了那么多为什么,那我反问一个问题:你了解 Nand Flash 的特性及其烧录关键点吗?


一、Nand flash 的特性


1、位翻转

在 NAND 闪存是通过对存储单元(Cell)进行充电来完成数据存储的,存储单元的阈值电压就对应着数据值。当读取的时候,通过将它的阈值电压与参考点对比来获得其数据值。对 SLC 而言,就只有两种状态和一个参考点。而对于 2-Bits 的 MLC 而言,它有 4 种状态和三个参考点。TLC 就更多状态和参考点。当读出的数据值与编程时数据值对应的阈值电压不相匹配时,表明数据发生了位翻转,就带来了可靠性问题。导致位翻转的最常见原因是“编程干扰”导致的阈值电压漂移。


2、存储结构

Nand 闪存由多个 Block 组成,每一个 Block 又由多个 Page 组成,Page 的大小一般为 512+16Bytes 、2K+64Bytes 以及 4096+128Bytes,Page 是读取和编程的基本单位,而擦除的基本单位是 Block。
NAND Flash 的页,包含主区(Main Area)和备用区(Spare Area)两个域,“主区”也常称作数据区,备用区是保留区域,一般用来标记坏块(bad block)和存放 ECC 的值,当然有些文件系统使用备用区记录擦除次数、文件组织数据等。

 



图 1.1 为页大小为 2048+64 的闪存存储结构


3、坏块及 ECC

位翻转的发生是随机的,且比特误码的数量会随着擦写次数的增加而增加。但是只要比特误码的数量在 ECC 能够纠正的范围内,数据的完整性就始终有保障。在有些点,每页的比特误码有可能很接近 ECC 所能纠正的极限,NAND 的控制系统必须严防比特误码超过可纠错的范围,否则,就可能造成数据丢失或者系统无法正常工作。因此,这些块必须要标记为坏块。坏块永远不应该再用来存储数据。由于坏块的产生是不可避免的,NAND 制造商在对裸片测试时会选择对某些块进行坏块标记,而不是放弃整个裸片,所以大多数 NAND 在出厂时就已经存在标记为坏块的块。如果一个 NAND 的块被标记为坏块,那么 NAND 的容量就永久性的减小了。


二、Nand 系统裸片量产烧录的关键点
由于 Nand flash 芯片的特性,以其作为存储介质时必须对这些特性进行恰当处理,这样系统才能正常运行。系统设定各分区数据在 Nand 芯片的存储布局,并且在存储驱动层对 Nand 进行位纠错、坏块管理等处理,这些信息需要系统 / 驱动工程师明确。


研发阶段或小批量生产阶段,常采用在板烧录的方式,原理是将 boot 通过串口下载到内存跑起来,由 boot 从 SD 卡或网络将内核镜像、文件系统镜像等数据烧录到 Nand flash 芯片。


为了提高生产效率或别的方面考虑,会使用烧录器对 Nand flash 裸片进行量产烧录,由于烧录器厂家并不知道存储驱动层对 Nand 各种特性的处理方式,所以不加正确配置就进行烧录的话,往往出现以下情况:1. 烧录失败,经常是校验通不过;2. 烧录通过,但是部分芯片贴板之后系统运行不起来,或者运行起来某些模块出现一些错误与异常。这些大多不是烧录器本身的问题,而是裸片烧录 Nand 系统时几个重要的关键点没有处理好,或者说没有和目标系统相关处理一致。这些关键点包括:


1) 坏块处理策略

2) 分区(Partition)

3) 纠错码(Error Correction Codes,ECC)


当然,影响烧录的还有其他因素,比如备用区的使用情况、未用好快的格式化以及动态元数据等,但我们这里只讨论上面几个比较普遍的因素。


1、坏块处理策略

坏块一般是根据芯片的坏块标记位置进行识别的,而坏块处理策略定义了在遇到坏块时算法应该如何处理。策略算法负责将本来应该写到坏块的内容写到其它可选的好块中。最常用的坏块处理策略是跳过坏块,其他典型的还有带 BBT 的跳过坏块及预留块区等。


跳过坏块的处理策略是最基本最常用的坏块替换策略。当烧录中遇到坏块时,算法简单地跳过坏块,而将数据写入下一个好块。它会造成物理数据和逻辑数据的位置偏移,这通常需要分区来解决这个问题。


2、分区(Partition)

采用类跳过坏块的处理策略的 Nand 系统,常常会把存储区分成若干个不同的物理区域,这就是我们说的分区,概念上很像电脑硬盘的分区。使用分区使得你有能力确保你的数据可以存到预先指定的物理块区内,即便在这之前发现了一些坏块。这对一些底层软件组件比如启动引导程序和某些必须很容易定位的文件系统驱动程序来说,是非常有帮助的。


当使用跳过坏块的替换策略时,坏块会导致数据顺移到下一个好块。如果设置了分区,就可以指导烧录器确定数据的边界,确保数据文件不会侵占邻近的分区。

图 2.2.1 典型的嵌入式 Linux 系统分区情况


3、纠错码(Error Correction Codes,ECC)

针对不同工艺、容量的 NAND 存储系统采用适当的 ECC 算法是应该的,要保证系统的可靠性,甚至是必须的。ECC 纠错码一般存放在备用区中,对一整页或将页分成若干节的数据进行计算而得。数据烧录之前需要准备好 ECC(硬件 ECC 除外),如果是纯数据则需要使用 ECC 算法来生成。Nand 裸片量产中,知道 ECC 算法的纠错能力(纠错位数)是很重要的,因为要保证生产效率,烧录器如果采用 ECC 来进行校验数据是不实际的,而通过简单数据比对就可以知道数据的位翻转个数,如果翻转个数范围在 ECC 算法的纠错范围之内,则认为校验应该是通过的。


三、烧录定制

对于以上关键点或其它特殊部分,如果烧录器软件没有支持的相应的方案,需要联系原厂进行相关算法的定制,比如坏块处理方案、ECC 方案等。