在本周的ISSCC 2021上,六家主要的3D NAND闪存制造商中的四家将展示他们最新的3D NAND技术。三星,SK hynix和Kioxia(+ Western Digital)正在共享其最新的3D TLC NAND设计,而英特尔将展示其144层3D QLC NAND。美光公司(去年年底宣布推出176L 3D NAND)和中国存储新兵长江存储今年都不参加。
三星,SK hynix和Kioxia / WD介绍了有关其下一代3D TLC的信息。 美光的176L TLC未在此处显示,因为他们尚未针对最新一代的3D NAND发布大部分数据。毫不奇怪,三星似乎将以最低的读取延迟和最快的写入速度再次领先于性能。但是,尽管他们声称这一代产品的提升达到70%,但它们的位密度仍然明显滞后。过去,它们的滞后密度并未像乍看起来那样有太大的缺点,因为三星能够避免使用字符串堆叠,并且可以在竞争对手使用的情况下将128层的堆叠作为一个单层制造,所有人都不得不将其堆栈分成两个平台,从而增加了所需的制造步骤。这可能是三星在这一代产品不可避免地采用字符串堆栈的原因,但是如果是这种情况,那么它们挥之不去的密度缺点将令人失望。另一方面,如果他们 仅通过结合其他技术(最著名的是a CMOS under Array layout)就成功地将这种过渡推迟了一代并实现了这种密度的提高,这是一个非常令人印象深刻的进步,可以肯定地说三星垂直通道的高纵横比蚀刻是竞3D NAND竞争中,在晶圆厂中最关键的步骤,这比竞争产品领先多年。一旦三星披露了实际的层数,我们就会知道更多,但他们暂时仍在保密,这暗示着他们并不希望吹嘘最高的层数。SK hynix和Kioxia / WD所描述的TLC部件看起来相当相似,但区别在于SK hynix谈论的是512Gb芯片,而Kioxia谈论的是1Tb芯片。尽管Kioxia吹捧更高的NAND接口速度,但两种设计都具有相似的性能和密度。Kioxia和Western Digital发布了一个新闻稿,宣布了162层3D NAND,因此它们的总层数落后于SK hynix和Micron。该新闻稿还提到,其cell阵列的水平密度提高了10%,因此Kioxia和Western Digital可能将垂直通道比任何竞争对手都更紧密地排列在一起。今年唯一在ISSCC上进行QLC更新的公司是英特尔。总的来说,英特尔比其他任何竞争对手都更加注重QLC NAND。这款144L QLC是英特尔没有与美光科技共同开发的第一代3D NAND,在某些方面它是独一无二的。英特尔将其3D NAND技术带向与其他行业不同的方向,因为它们将NAND闪存业务出售给SK hynix的协议将产生有趣的影响,但是在短期内,英特尔似乎正在获得他们想要的NAND。因为仅有144层,英特尔几乎可以肯定现在是层数的落后者。与9X层的QLC相比,英特尔具有更好的性能和密度-但是SK hynix和Kioxia描述的新型TLC的QLC版本应具有可比的密度。英特尔已经放弃使用96L QLC的方式来描述块大小,但144层NAND的48MB块尺寸看起来也很大。不同厂商的阵列下的CMOS(CMOS Under Array)英特尔和美光现在已解散的合资企业是仅次于三星的第二家转向3D NAND的NAND闪存制造商。英特尔/美光3D NAND带给业界的最重大创新是CMOS Under the Array(CuA)设计。这就将大多数NAND芯片的外围电路(页面缓冲器,读出放大器,电荷泵等)置于存储单元的垂直堆栈之下,而不是并排放置。这种改变节省了大量的裸片空间,并允许将超过90%的裸片面积用于存储单元阵列。接下来是SK hynix进行的这项切换,他们称之为“Periphery under Cell”(PuC)。其他制造商现在也都在使用:Kioxia(当时是东芝)和Western Digital在ISSCC 2019上展示了128层CuA设计,但他们的第五代BiCS 3D NAND最终以无CuA的112L设计投入生产。他们今年在ISSCC上的演讲是针对CuA的“ 170+”层设计,他们发布了一份新闻稿,确认他们的第六代BiCS 3D NAND将是采用CuA的162层设计。除了节省裸片空间之外,用于3D NAND的CuA / PuC样式设计还允许裸片包含更多的外围电路,而其他方面的成本效益比更高。这使得将裸片的存储器阵列划分为更多单独的平面非常实用,每个平面都有自己的大部分外围电路副本。大多数没有CuA布局的3D NAND的每个die仅使用两个平面(two planes per die),但是现在每个人都在使用CuA,因此标准是每个die有四个平面(four planes per die)。这提供了额外的并行性,从而提高了每个芯片的性能,并抵消了通常由于使用更少的芯片达到相同总容量而导致的总体SSD性能下降。CuA结构并非没有挑战和缺点。当制造商首次切换到CuA时,它们会大大增加外围电路的可用裸片空间。但是在那之后,每一代相继增加的层数意味着管理相同数量存储单元的die空间就更少了,因此外围电路仍然必须缩小。将外围电路置于存储单元阵列之下还会带来新的限制。例如,三星在今年的ISSCC演讲中提到,当电荷泵不再能够使用易于包含在3D NAND堆栈中的高金属结构时,这就为电荷泵构造大型电容器带来挑战。更好的On-Die Parallelism:每个die四个平面将NAND闪存管die分为四个平面可以使该die并行处理更多的操作,但是并不能使其表现得像四个独立的die。因为并行执行操作受到限制:例如,同时写入仍必须在每个平面内的同一字线上进行。但是随着闪存芯片数量的增加,制造商一直在努力放松一些限制。在过去的几年中,制造商推出了“独立”的多平面读取,这意味着在不同平面中的同时读取对每个平面内的读取位置没有任何限制,这是随机读取吞吐量的一大胜利。现在,放宽了对多平面操作的另一个限制:不需要在不同平面上进行读取操作的时序。这使得一个平面可以从SLC页面执行多次读取,而另一平面则可以从TLC或QLC页面执行单个较慢的读取。此功能称为异步独立(多)平面读取。实际效果是,对于读取操作,一个大的4平面die现在可以匹配四个较小的1平面die的性能。这可以缓解更高的每个芯片容量给每个通道仅具有一个或两个芯片的SSD带来的性能下降。Kioxia和WD报告说,要实现此功能,他们必须停止在平面之间共享电荷泵,以免因读取操作不同步而导致电压和电流波动不及时。英特尔还通过其4平面144L QLC达到了此功能的一半:将多个平面配对为多个平面组,每个平面组可以执行读取而无需与另一个平面组中的读取时序保持一致。ISSCC上介绍的新型TLC NAND部件支持NAND闪存die和SSD控制器之间的通信的IO速度范围为1.6到2.0 Gb / s。目前市场上最快的NAND SSD的运行速度为1.2-1.4Gb / s。NAND制造商可以通过确保将用于其SSD的自己的SSD控制器设计准备好支持这些更高的IO速度而从垂直集成中受益,但是可能会依赖其他第三方控制器的SSD供应商。Phison针对高端PCIe 4.0 SSD的最新E18 8通道控制器仅支持1.2Gb / s IO速度,而即将推出的E21T 4通道NVMe控制器则支持1.6Gb / s。Silicon Motion的8通道SM2264和4通道SM2267分别支持1.6Gb / s和1.2Gb / s IO速度。由于以1.2Gb / s的速度运行8个通道已经足以使SSD饱和PCIe 4.0 x4连接,因此这些新的更高IO速度在PCIe 5.0到来之前对高端SSD并没有多大用处。但是,价格更实惠的4通道消费类SSD控制器将能够使用这些更高的速度更好地进入PCIe 4.0性能领域,达到或超过第一个PCIe 4.0 SSD控制器(Phison E16,8ch @ 800Mb / s)提供的吞吐量。正如诸如SK hynix Gold P31之类的驱动器所展示的那样,在每个通道上支持高IO速度的高级4通道控制器在性能上极具竞争力,同时以比8通道控制器更高的功率效率运行。要达到这些更高的IO速度,就需要对NAND裸片上的接口逻辑进行重大升级,并且正如我们在其他高速接口(如PCI Express)中所看到的那样,增加的功耗是一个主要问题。三星正在通过使用双模式驱动程序和终端解决此问题。当由于总线上的更多负载而需要更高的驱动强度时(每个通道有更多的裸片),将使用PMOS晶体管进行上拉,否则,他们可以使用NMOS晶体管并降低驱动器的功耗一半以上。这为三星提供了一个单一的接口设计,该设计可以很好地适用于小型消费类SSD和大型企业驱动器,每个通道具有更多的裸片。(过去,三星已经在多芯片封装中添加了单独的重定时器芯片,这些芯片在相同的一个或两个通道上将许多NAND芯片堆叠在一起。字符串堆叠已被视为将3D NAND扩展到更高层数的必要手段。只有三星能够一次构建超过100层的3D NAND,并且其他所有人早就转而使用堆叠两个具有更合理层数的decks了。这意味着例如美光公司的176层3D NAND构建为88层存储单元,然后在其顶部再构建88层。与一次完成所有层相比,这会增加成本,并且需要在平台之间的接口处仔细对齐。但是另一种选择是使垂直通道更宽,以使纵横比(宽度与深度)保持在当前晶圆厂技术可以蚀刻的范围之内。英特尔的144L QLC设计最令人惊讶的是它们已经转向了3层堆栈:48 + 48 + 48层,而不是我们期望的72 + 72。由于他们的前一代产品是48 + 48层(总共96L)设计,因此,除了第三次重复相同的沉积,蚀刻和填充步骤顺序外,他们对于存储器阵列本身的制造方式几乎没有什么改变。英特尔通过这种方法影响了工厂的吞吐量,但它可能有助于他们更好地控制从堆栈顶部到底部的通道和单元尺寸的变化,考虑到他们对QLC及其独特性的关注,这可能是一个更大的问题。决定仍然使用浮栅存储单元,而不是像其他所有人一样切换到电荷陷阱单元。为了与这种三层结构配合使用,英特尔重新组织了它们处理擦除块的方式,现在三个平台中的每一个都构成了一个单独的擦除块集合。这意味着现在可以擦除144L字符串的中间三分之一,而不会干扰存储在该字符串的其他三分之二中的数据。英特尔还可以通过96L QLC将数据块按卡组划分,从而将96 MB的数据块大小减小到不太极端的48 MB数据块大小。我们必须明白到,发表这些更新的ISSCC是一次学术会议,这一点很重要。演示文稿不是产品公告,论文也不是产品规格表。ISSCC上展示的设计并不总是与量产相匹配。例如,Kioxia / WD过去曾提出过128L和“ 170+”层NAND的设计,但实际量产的第五和第六代BiCS NAND是112L和162L设计。他们还尽管在他们的2019年演讲中提到了这一点,但将切换到更密集的``阵列下CMOS(CuA)结构的CMOS''推迟到后来的产品线。诸如写入性能之类的规格通常也以最佳情况来表示,而实际产品最终比所提供的要低。尽管所有这些公司都参加了一次会议,但即使演示文稿与最终产品相匹配,我们从ISSCC上学到的信息通常也不完美,信息也不完整。两家公司对其报告的指标不一致,而且我们通常每代仅获得一个芯片设计的信息-即使一家公司计划制造512Gbit和256Gbit零件,一家公司也可能会展示其512Gbit设计。近年来,几家公司似乎在谈论一年的QLC和第二年的TLC之间交替进行。尽管如此,ISSCC在3D NAND上的演示仍然是衡量最新技术水平以及整个行业的发展方向的好方法。这些演示内容的大约一半是用于微管理施加到各种导线的电压以优化读取,编程和擦除过程的巧妙方案。在速度,精度,磨损和其他因素之间存在复杂的权衡。除了要说将一个单元编程到所需的电压(并且不打扰其他单元)不是一个简单的过程,我们甚至不对所有这些细节进行深入研究,甚至从TLC或QLC单元中读取数据也相当简单。比从DRAM或SRAM单元读取要复杂得多。我们对管芯本身的任何重大结构变化以及所有精细电压的最终结果(即读取或编程一页存储器的速度)更感兴趣。
来源:内容由半导体行业观察(ID:icbank)编译自「anandtech」,谢谢。