La Conférence internationale annuelle IEEE sur les circuits à semi-conducteurs couvre une gamme de sujets d’intérêt pour AnandTech. Chaque année, la conférence comprend une session sur les mémoires non volatiles où la plupart des fabricants de mémoires flash NAND partagent les détails techniques de leurs derniers développements. Lors de la conférence, nous obtenons plus d’informations que ces entreprises ne sont généralement disposées à partager dans les points de presse, et les présentations portent généralement sur la technologie qui arrivera sur le marché au cours de l’année à venir.

À l’ISSCC 2021 cette semaine, quatre des six principaux fabricants de mémoires flash 3D NAND présentent leur toute dernière technologie 3D NAND. Samsung, SK hynix et Kioxia (+ Western Digital) partagent leurs dernières conceptions 3D TLC NAND et Intel présente leur NAND 3D QLC 144 couches. Micron (qui a annoncé sa 176L 3D NAND à la fin de l’année dernière) et le nouveau venu chinois YMTC ne participent pas cette année.

Mises à jour TLC 3D (3 bits par cellule)

Samsung, SK hynix et Kioxia / WD ont présenté des informations sur leurs prochaines générations de TLC 3D. Le TLC 176L de Micron n’est pas illustré ici, car ils n’ont pas publié la plupart de ces données pour leur dernière génération de NAND 3D.

Mémoire flash NAND 3D TLC
Présentations ISSCC
Samsung SK hynix Kioxia (Toshiba)
WD
Année présentée à l’ISSCC 2021 2019 2021 2021 2019 2018
Couches 128 176 > 170 128 96
Die Capacité 512 Go 512 Go 512 Go 1 To 512 Go 512 Go
Die Taille (mm2) 101,58 98 66 86
Densité (Gbit / mm2) 8,5 5 10,8 10,4 7,8 5,95
Vitesse IO 2,0 Gbit / s 1,2 Gbit / s 1,6 Gbit / s 2,0 Gbit / s 1,066 Gbit / s 533 Mo / s
Débit du programme 184 Mo / s 82 Mo / s 168 Mo / s 160 Mo / s 132 Mo / s 57 Mo / s
Latence de lecture (tR) 40 µs 45 µs 50 µs 50 µs 56 µs 58 µs
Effacer la taille du bloc 24 Mo 18 Mo
Avions 4? 2 4 4 4 2
CuA / PuC Oui Non Oui Oui Oui Non

Sans surprise, il semble probable que Samsung sera à nouveau en tête pour les performances, avec la latence de lecture la plus faible et les vitesses d’écriture les plus rapides. Cependant, leur densité de bits est toujours clairement à la traîne même s’ils revendiquent un bond de 70% avec cette génération. Dans le passé, leur densité en retard n’a pas été autant d’inconvénient qu’il n’y paraît à première vue, car Samsung a pu éviter d’utiliser l’empilement de cordes et peut fabriquer une pile de 128 couches comme un seul pont tandis que leur les concurrents ont tous dû diviser leur pile en deux jeux, augmentant le nombre d’étapes de fabrication requises. C’est peut-être la génération qui apporte à Samsung l’adoption inévitable de l’empilement de chaînes, mais si tel est le cas, leur désavantage persistant en termes de densité est plutôt décevant. D’un autre côté, s’ils ont réussi à repousser cette transition pour une génération de plus et ont réalisé ce type d’augmentation de densité uniquement en utilisant une combinaison d’autres techniques (notamment un CMOS sous Array layout), alors il & # 039; C’est une avancée très impressionnante et il serait prudent de dire que Samsung a des années d’avance sur la concurrence en ce qui concerne la gravure à rapport hauteur / largeur élevé des canaux verticaux qui est l’étape fab la plus critique dans la mise à l’échelle 3D NAND. Nous en saurons plus une fois que Samsung aura divulgué le nombre de couches réel, mais ils gardent ce secret pour le moment, ce qui laisse supposer qu’ils ne s’attendent pas à avoir le nombre de couches le plus élevé pour se vanter.

Les pièces TLC décrites par SK hynix et Kioxia / WD se ressemblent assez, à l’exception de la grande différence que SK hynix parle d’un dé de 512 Go et Kioxia parle d’un dé de 1 To. Les deux conceptions semblent avoir des performances et une densité similaires, bien que Kioxia vante une vitesse d’interface NAND plus élevée. Kioxia et Western Digital ont publié un communiqué de presse annonçant la NAND 3D à 162 couches, ils sont donc un peu en retard sur SK hynix et Micron pour le nombre total de couches. Ce communiqué de presse mentionne également une amélioration de 10% de la densité horizontale de leur matrice de cellules, de sorte que Kioxia et Western Digital regroupent probablement les canaux verticaux plus étroitement que n’importe lequel de leurs concurrents.

Mises à jour 3D QLC (4 bits par cellule)

La seule entreprise avec des mises à jour cette année sur QLC est Intel.

Mémoire flash 3D QLC NAND
Présentations ISSCC
Intel Samsung SK hynix Kioxia
WD
Année présentée à l’ISSCC 2021 2020 2020 2018 2020 2019
Couches 144 96 92 64 96 96
Die Capacité 1 To 1 To 1 To 1 To 1 To 1,33 To
Die Taille (mm2) 74,0 114,6 136 182 122 158,4
Densité (Gbit / mm2) 13,8 8,9 7,53 5,63 8.4 8,5
Vitesse IO 1,2 Gbit / s 800 Mb / s 1,2 Gbit / s 1,0 Gbit / s 800 Mb / s 800 Mb / s
Débit du programme 40 Mo / s 31,5 Mo / s 18 Mo / s 12 Mo / s 30 Mo / s 9,3 Mo / s
Latence du programme (tPROG) 1630 µs 2080 µs 2 ms 3 ms 2,15 ms 3380 µs
Latence de lecture
(tR)
Moy 85 µs 90 µs 110 µs 145 µs 170 µs 160 µs
Max 128 µs 168 µs 165 µs
Effacer la taille du bloc 48 Mo 96 Mo 16 Mo 24 Mo 24 Mo
Avions 4 4 2 2 4 2

En général, Intel s’est davantage concentré sur QLC NAND que n’importe lequel de ses concurrents. Ce 144L QLC est la première génération de 3D NAND Intel qui n’a pas été co-développé avec Micron, et il est unique à plusieurs égards. Intel prend sa technologie 3D NAND dans des directions différentes du reste de l’industrie aura des ramifications intéressantes pour leur accord de vente de l’activité flash NAND à SK hynix, mais à court terme, il semble qu’Intel obtient le NAND qu’ils veulent être vente. Avec seulement 144 couches, Intel est presque certainement à la dernière place pour le nombre total de couches. Comparé au QLC 9x-layer, Intel a des performances et une densité bien meilleures, mais les versions QLC du nouveau TLC décrit par SK hynix et Kioxia devraient avoir une densité comparable. Intel a reculé par rapport à la taille de bloc d’effacement franchement astronomique utilisée par son QLC 96L, mais la taille de bloc de 48 Mo de son nouveau QLC 144L semble toujours un peu élevée.

CMOS sous matrice de tout le monde

La joint-venture désormais dissoute d’Intel et de Micron a été le deuxième fabricant de flash NAND à passer à la 3D NAND, après Samsung. L’innovation la plus importante que Intel / Micron 3D NAND a apportée à l’industrie était la conception CMOS Under the Array (CuA). Cela place la plupart des circuits périphériques de la puce NAND (tampons de page, amplificateurs de détection, pompes de charge, etc.) sous l’empilement vertical de cellules de mémoire au lieu d’être à côté.

Ce changement économise une grande partie de l’espace de la puce et permet à plus de 90% de la surface de la puce d’être utilisée pour la matrice de cellules de mémoire. SK hynix était le suivant à effectuer ce changement, qu’ils appellent «Périphérie sous cellule» (PuC). Les autres fabricants sont désormais également à bord: Kioxia (alors Toshiba) et Western Digital ont présenté un design CuA 128 couches à l’ISSCC 2019, mais leur cinquième génération BiCS 3D NAND a fini par entrer en production en tant que conception 112L sans CuA. Leur présentation à l’ISSCC cette année concerne une conception de couches « 170+ » avec CuA, et ils ont publié un communiqué de presse confirmant que leur BiCS 3D NAND de sixième génération sera une conception de 162 couches avec CuA.

En plus d’économiser de l’espace dans la matrice, une conception de style CuA / PuC pour 3D NAND permet à une matrice d’inclure plus de circuits périphériques qu’il ne serait autrement rentable. Cela rend pratique la division de la matrice de mémoire d’une puce en plusieurs plans séparés, chacun avec ses propres copies de la plupart des circuits périphériques. La plupart des NAND 3D qui ont été construits sans disposition CuA ont utilisé seulement deux plans par dé, mais maintenant que tout le monde utilise CuA, la norme est de quatre plans par dé. Cela fournit un parallélisme supplémentaire qui augmente les performances par matrice et compense la baisse de performance globale du SSD qui provient généralement de l’utilisation de moins de matrices pour atteindre la même capacité totale.

Une structure CuA n’est pas sans défis et inconvénients. Lorsqu’un fabricant passe pour la première fois à CuA, il obtient une forte augmentation de l’espace de puces disponible pour les circuits périphériques. Mais après cela, chaque génération successive qui ajoute des couches signifie qu’il y a moins d’espace de puce disponible pour gérer le même nombre de cellules de mémoire, donc les circuits périphériques doivent encore se réduire. Le fait de placer des circuits périphériques sous le réseau de cellules de mémoire introduit également de nouvelles contraintes. Par exemple, la présentation ISSCC de Samsung cette année mentionne les défis de la construction de gros condensateurs pour les pompes de charge lorsqu’ils ne peuvent plus utiliser les hautes structures métalliques qui sont simples à inclure aux côtés de la pile 3D NAND.

Meilleur parallélisme sur matrice: quatre plans par matrice

La division d’une matrice flash NAND en quatre plans permet à la matrice de gérer plus d’opérations en parallèle, mais ne la fait pas se comporter comme quatre matrices indépendantes. Il existe des restrictions sur ce qui peut être fait en parallèle: par exemple, les écritures simultanées doivent toujours aller sur la même ligne de mot dans chaque plan. Mais à mesure que le nombre d’avions dans une matrice flash augmente, les fabricants s’efforcent de lever certaines de ces restrictions. Au cours des années précédentes, les fabricants ont introduit des lectures multi-plans * indépendantes *, ce qui signifie que les lectures simultanées dans différents plans n’ont pas de restrictions sur les emplacements de chaque plan en cours de lecture – une grande victoire pour le débit de lecture aléatoire.

Maintenant, une autre restriction sur les opérations multi-plans est en train d’être assouplie: le timing des opérations de lecture dans différents plans n’a pas besoin de s’aligner. Cela permet à un plan d’effectuer plusieurs lectures à partir de pages SLC tandis qu’un autre avion effectue une seule lecture plus lente à partir de pages TLC ou QLC. Cette capacité est appelée lecture asynchrone indépendante (multi-) plan. L’effet pratique est que pour les opérations de lecture, une grande matrice à 4 plans peut maintenant égaler les performances de quatre petites matrices à 1 plan. Cela atténue de nombreux inconvénients de performances qu’une capacité par dé plus élevée apporte aux disques SSD qui ne disposent que d’un ou deux dé par canal.

Kioxia et WD ont signalé que la mise en œuvre de cette capacité les obligeait à cesser de partager les pompes de charge entre les avions, afin d’éviter les fluctuations de tension et de courant mal synchronisées qui auraient résulté d’opérations de lecture non synchronisées. Intel est également à mi-chemin de cette capacité avec son QLC 144L à 4 plans: les avions sont jumelés en groupes de plans, et chaque groupe de plans peut effectuer des lectures sans avoir besoin de s’aligner sur la synchronisation des lectures dans l’autre groupe de plans.

NAND IO accélère la prise en charge des contrôleurs SSD

Les nouvelles pièces TLC NAND décrites à l’ISSCC prennent en charge des vitesses d’E / S allant de 1,6 à 2,0 Gb / s pour la communication entre les matrices flash NAND et le contrôleur SSD. Le NAND le plus rapide en SSD actuellement sur le marché fonctionne à 1,2-1,4 Gb / s. Les fabricants de NAND peuvent bénéficier de l’intégration verticale en s’assurant que leurs propres conceptions de contrôleur SSD utilisées pour leurs propres SSD seront prêtes à prendre en charge ces vitesses d’E / S plus élevées, mais d’autres fournisseurs de SSD qui s’appuient sur des contrôleurs tiers peuvent être laissés pour compte. Le dernier contrôleur 8 canaux E18 de Phison pour SSD PCIe 4.0 haut de gamme ne prend en charge que des vitesses d’E / S de 1,2 Gb / s, et leur prochain contrôleur NVMe E21T 4 canaux prend en charge 1,6 Gb / s. Le SM2264 à 8 canaux de Silicon Motion & # 039; et le SM2267 à 4 canaux prennent en charge des vitesses d’E / S de 1,6 Gb / s et 1,2 Gb / s respectivement.

Étant donné que 8 canaux fonctionnant à 1,2 Gb / s sont déjà suffisants pour qu’un SSD sature une connexion PCIe 4.0 x4, ces nouvelles vitesses d’E / S plus élevées ne seront pas d’une grande utilité pour les SSD haut de gamme jusqu’à l’arrivée de PCIe 5.0. Mais les contrôleurs SSD grand public 4 canaux plus abordables pourront utiliser ces vitesses plus élevées pour passer bien dans le territoire des performances PCIe 4.0, égalant ou dépassant le débit offert par le premier contrôleur SSD PCIe 4.0 (Phison E16, 8 canaux à 800 Mo / s). . Comme le démontrent des disques tels que le SK hynix Gold P31, un contrôleur 4 canaux avancé prenant en charge des vitesses d’E / S élevées sur chaque canal peut être très compétitif en termes de performances tout en fonctionnant avec une efficacité énergétique bien supérieure à celle des contrôleurs 8 canaux.

Atteindre ces vitesses d’E / S plus élevées nécessite des mises à niveau majeures de la logique d’interface sur les matrices NAND, et comme nous l’avons vu avec d’autres interfaces haute vitesse comme PCI Express, l’augmentation de la consommation d’énergie est une préoccupation majeure. Samsung résout ce problème en utilisant des pilotes et une terminaison bimode. Lorsqu’une force d’entraînement plus élevée est nécessaire en raison d’une charge plus élevée sur le bus (à partir de plus de matrices par canal), le & # 039; ll utilise un transistor PMOS pour le pull-up, et sinon, ils peuvent utiliser un transistor NMOS et réduire la consommation d’énergie du conducteur de plus de la moitié. Cela donne à Samsung une conception d’interface unique qui fonctionnera bien pour les petits SSD grand public et les grandes entreprises avec beaucoup plus de matrices par canal. (Dans le passé, Samsung a ajouté des matrices de resynchronisation séparées aux packages multi-puces qui empilent de nombreuses matrices NAND sur le même un ou deux canaux. Nous ne savons pas si Samsung utilise toujours cette technique.)

Empilage de cordes: premier NAND à trois ponts

L’empilement de chaînes a été considéré comme un mal nécessaire pour étendre la 3D NAND à un nombre de couches plus élevé. Seul Samsung a réussi à créer plus de 100 couches de 3D NAND à la fois, et tous les autres sont depuis longtemps passés à l’empilement de deux ponts chacun avec un nombre de couches plus raisonnable. Cela signifie que par exemple. Le NAND 3D de 176 couches de Micron est constitué de 88 couches de cellules de mémoire, puis 88 couches supplémentaires sont construites sur le dessus. Cela augmente les coûts par rapport à toutes les couches à la fois et nécessite un alignement soigneux à l’interface entre les platines. Mais l’alternative serait de rendre les canaux verticaux beaucoup plus larges, de sorte que le rapport d’aspect (largeur par rapport à la profondeur) reste dans le domaine de ce qui peut être gravé par les techniques de fabrication actuelles.

La conception 144L QLC d’Intel comprend la surprise qu’ils sont déjà en train de passer à une pile à 3 ponts: 48 + 48 + 48 couches au lieu des 72 + 72 que nous attendions. Étant donné que leur génération précédente est une conception de 48 + 48 couches (96L au total), il est possible qu’ils aient très peu changé la façon dont la matrice de mémoire elle-même est fabriquée en dehors de la répétition de la même séquence d’étapes de dépôt, de gravure et de remplissage a troisième fois. Intel prend un coup sur le débit fab avec cette approche, mais cela les aide probablement à mieux contrôler la variation des dimensions des canaux et des cellules du haut vers le bas de la pile, ce qui peut être plus préoccupant étant donné leur concentration sur QLC et leur unique décision d’utiliser toujours une cellule mémoire à grille flottante plutôt que de passer à une cellule piège de charge comme tout le monde.

Pour accompagner cette structure à trois étages, Intel a réorganisé la façon dont ils gèrent les blocs d’effacement, et maintenant chacun des trois ponts constitue une collection distincte de blocs d’effacement. Cela signifie que le tiers central d’une chaîne 144L peut maintenant être effacé sans interférer avec les données stockées dans les deux autres tiers de la chaîne. La division des blocs par ponts est également la façon dont Intel a pu réduire la taille de bloc de 96 Mo avec leur 96L QLC à une taille de bloc de 48 Mo moins extrême.

Une petite mise en garde sur les conférences académiques

Il est important de comprendre que l’ISSCC, où ces mises à jour sont présentées, est une conférence universitaire. Les présentations ne sont pas des annonces de produits et les articles ne sont pas des fiches techniques de produits. Les designs présentés à l’ISSCC ne correspondent pas toujours à ce qui entre dans la production de masse. Par exemple, Kioxia / WD dans le passé ont présenté des conceptions pour les couches NAND 128L et « 170+ », mais leurs BiCS NAND de cinquième et sixième génération, produites en série, sont des conceptions 112L et 162L. Ils ont également, bien qu’ils l’aient mentionné dans leur conférence de 2019, ont reporté le passage à une structure CMOS sous Array (CuA) plus dense & # 039; à une gamme de produits ultérieure. Les spécifications telles que les performances d’écriture sont également souvent présentées comme les meilleurs cas, et les produits du monde réel finissent par être un cran en dessous de ce qui est présenté.

Malgré le rassemblement de toutes ces entreprises dans le cadre d’une même conférence, même lorsque la présentation correspond au produit final, ce que nous apprend l’ISSCC est généralement une information imparfaite et incomplète. Les entreprises ne sont pas cohérentes quant aux mesures qu’elles rapportent, et nous obtenons généralement des informations pour une seule conception de matrice par génération. Une entreprise peut présenter sa conception de 512 Gbit même si elle envisage de fabriquer des pièces de 512 Gbit et 256 Gbit. Ces dernières années, plusieurs entreprises semblent alterner entre parler de leur QLC un an et TLC de l’autre. En dépit de tout cela, les présentations ISSCC sur 3D NAND sont toujours un excellent moyen d’évaluer comment l’état de l’art a progressé et où se dirige l’industrie dans son ensemble.

Environ la moitié du contenu de ces présentations est constitué de schémas intelligents de microgestion des tensions appliquées à divers fils afin d’optimiser les processus de lecture, de programmation et d’effacement. Il existe des compromis complexes entre la vitesse, la précision, l’usure et d’autres facteurs. nous n’allons pas creuser dans tous ces détails, sauf pour dire que programmer une cellule à la tension souhaitée (et sans déranger les autres cellules) n’est pas un processus simple, et même la lecture à partir d’une cellule TLC ou QLC est un peu plus compliqué que la lecture à partir d’une cellule DRAM ou SRAM. Nous nous intéressons davantage aux changements structurels majeurs des matrices elles-mêmes, et aux résultats finaux de tous les affinements des tensions: les vitesses auxquelles une page de mémoire peut être lue ou programmée.

Matériel source: 68e ISSCC, 13-22 février 2021