(Nie)straszne niedoskonałości SSD

Komórki kości pamięci NAND najnowszych generacji mieszczą więcej danych na mniejszej powierzchni niż w konstrukcjach sprzed lat. Trudniej jest odprowadzać z nich ciepło z powodu warstwowej budowy. Dlatego mają coraz krótszą żywotność i większą awaryjność. Potencjalne ryzyko można zredukować, kupując sprzęt markowy i monitorując jego kondycję.

Systematyczna i zakrojona na szeroką skalę redukcja cen dysków SSD trwa od ponad roku. Produkty te tanieją ze względu na nadwyżkę podaży nad popytem oraz za sprawą modernizacji układów, w przypadku których główny nacisk kładzie się na zmniejszanie kosztów wytwarzania kości pamięci flash. Na to, że dyski SSD zamiast być coraz lepsze, są coraz tańsze kosztem jakości, fachowcy zwracali uwagę już kilka lat temu, gdy wysiłki konstruktorów nie koncentrowały się na ulepszaniu produktu, ale na redukowaniu ich ceny. Aby zmniejszyć cenę produktu, stosowano pamięci gorszej jakości i bardziej czuły kontroler korygujący błędy. Aby zwiększyć transfer, dokładano więcej pamięci podręcznej. Niestety, klienci najczęściej patrzyli najpierw na cenę, a potem na parametry. Zwykle też nie wiedzieli, które cechy są ważne i co w praktyce oznaczają.

Choć opisana tendencja przybiera na sile, producenci twierdzą, że nie ma problemu. Wprawdzie przyparci do muru konkretnymi argumentami przyznają, że rzeczywiście dysk SSD nie może służyć przez długie lata, ale uważają, że nie ma takiej potrzeby, bo użytkownicy co kilka lat wymieniają komputer, więc siłą rzeczy wymieniają też dysk. Dość często, a całkiem od siebie niezależnie, producenci posiłkują się przykładem z rynku motoryzacyjnego i twierdzą, że nikt dziś nie oczekuje od silnika, że będzie pracował bezawaryjnie przez 20 lat i wystarczy na milion kilometrów.

Nowsze, ale nie lepsze

Na czym dokładnie polegają problemy z dyskami SSD? Przede wszystkim trzeba wiedzieć, że komórki NAND mają określoną żywotność, która ulega skróceniu wraz z każdą operacją zapisu. Przez to nie można oczekiwać, że SSD będzie służyć w nieskończoność, jak się zwykło myśleć o HDD (zresztą też niesłusznie!). Pionierskie konstrukcje bazowały na kościach typu SLC (przechowywały tylko jeden bit w komórce pamięci) i ich żywotność rozpatrywana pod kątem liczby cykli zapisu była niemal nieskończona, bo wynosiła 100 tys., natomiast wraz z kolejnymi generacjami pamięci NAND parametry kości – takie jak żywotność, czas dostępu czy transfer – ulegały pogorszeniu. Działo się tak za sprawą zmniejszania rozmiaru tranzystorów. Producenci nieustannie prowadzą prace nad wdrażaniem coraz cieńszej litografii, bo dzięki temu koszty wytworzenia produktu są mniejsze i pobiera on mniej energii. Ma to znaczenie zarówno w przypadku kości pamięci, jak i procesorów – być może problemy dotyczą również tych drugich, bo jak wiadomo, Intel w ostatnich czasach nie dostarcza na rynek pożądanej liczby układów.

– Komórka pamięci SLC mieściła około 3 tys. elektronów w stanie naładowanym oraz prawie żadnego w rozładowanym i mogła występować tylko w dwóch stanach: naładowanym lub rozładowanym. Dzięki temu układy bazujące na takich komórkach były bardzo szybkie i niezawodne, bo kontrolery dobrze sobie radziły z odczytaniem stanu – mówi Paweł Kaczmarzyk, właściciel Kaleronu, firmy specjalizującej się w odzyskiwaniu danych z dysków.

Dodaje, że najnowsze układy nie dość, że mieszczą ładunek elektryczny na dużo mniejszej powierzchni, to jeszcze zawierają aż trzy bity, czyli osiem kombinacji poziomów naładowania, co wpływa negatywnie na transfer danych i sprzyja częstszemu występowaniu błędów. To oznacza też, że kontrolery współpracujące z takimi układami muszą być coraz bardziej precyzyjne, aby móc poprawnie odczytywać poziom naładowania tranzystora. Przy dzisiejszych konstrukcjach różnica w odczycie rzędu 100 elektronów może być przyczyną błędu. Drugim problemem jest odprowadzanie ciepła w przypadku układów o kilku warstwach.

Bardzo duże wymagania względem kontrolerów oraz kłopoty z odprowadzaniem ciepła w praktyce mogą prowadzić do skrócenia żywotności układów, a nawet do awarii. Specyfika konstrukcji NAND powoduje wyłączenie bloku z eksploatacji, gdy liczba bitowych błędów przekracza możliwości ich korekcji kodami ECC. Gorzej, gdy kontroler nie poradzi sobie z awarią bloku i odetnie dostęp do wszystkich układów NAND. Wtedy dochodzi do awarii nośnika, a ponieważ dane nie są poukładane w kolejności lecz rozproszone, odzyskanie ich nawet w warunkach laboratoryjnych jest utrudnione.

Plastry na dziury

W dużym uproszczeniu i skrócie typowy schemat postępu w rozwoju układów NAND wygląda tak, że producenci kości skupiają się na tworzeniu coraz cieńszych układów, a projektanci kontrolerów muszą za nimi nadążyć i produkować coraz bardziej efektywnie pracujące urządzenia. To tak, jakbyśmy mieli coraz większe plastry na coraz większe dziury. Ale czy rzeczywiście jest to problem? W zamierzchłej przeszłości, gdy powstały magnetofony kasetowe, mało kto wróżył im przyszłość. Taśma w nich nie dość, że była o połowę mniejsza, to jeszcze przesuwała się dwu- lub czterokrotnie wolniej niż w urządzeniach szpulowych. Fachowcy uważali, że dużo mniejsza ilość domen ferromagnetycznych w taśmie kasetowej uniemożliwi nagrywanie muzyki w wysokiej jakości.

Jednak odtwarzacze kasetowe były coraz lepsze, bo ich mankament stał się bodźcem dla producentów – stosowano coraz bardziej udane nośniki w taśmach (jak chromowe czy metalowe), opracowano systemy poprawiające jakość dzięki redukcji szumu, np. Dolby w kilku generacjach czy DBX. W efekcie osiągnięto bardzo wysoką jakość nagrań. Zdaniem producentów podobną sytuację mamy w przypadku NAND.

– Rzeczywiście litografia jest coraz mniejsza, ale to nie jest problemem, bo równolegle powstają coraz lepsze kontrolery. Mamy do czynienia ze zwyczajnym postępem technologicznym, który będzie trwał aż do wyczerpania możliwości konstrukcji NAND – mówi Mirosław Fryzeł, kierownik działu sprzedaży w Wilk Elektronik.

Oczywiście należy pamiętać, że zawsze, zanim nowa konstrukcja ukaże się na rynku, jest bardzo gruntownie testowana i nie trafia do sprzedaży, dopóki nie ma pewności, że będzie działała, jak należy. Przykładem są układy QLC, już dostępne, z tym że nieprędko znajdą się one w dyskach SSD przeznaczonych do pecetów.

Komórki QLC mogą pomieścić aż 4 bity informacji, co oznacza 16 poziomów naładowania tranzystora. Na obecnym etapie rozwoju kości i kontrolerów dyski zbudowane na bazie NAND QLC cechuje bardzo niski transfer, porównywany z tym w tradycyjnych HDD, więc należy poczekać na elektronikę, która podoła wyzwaniu, jakie stawiają kości następnej generacji. Kiedy to nastąpi, nie wiadomo – może za kilka miesięcy, może za kilka lat, a może nigdy. Jak mówi Harry Shen, dyrektor Działu Menedżerów Produktu w firmie Transcend: „nie planujemy wdrożenia dysków z kośćmi QLC w najbliższej przyszłości”.

Zdaniem specjalisty

Paweł Kaczmarzyk, właściciel Kaleron

Przyszłość nośników danych może należeć do rozwiązań magnetorezystywnych, które powstały jeszcze w latach 70. i cały czas są udoskonalane pod kątem zastosowania ich w dyskach. Komórki pamięci magnetorezystywnych są małe, bardzo trwałe i odporne na uszkodzenia mechaniczne. Ponieważ zapewniają czas dostępu liczony w setkach pikosekund, mogą też być stosowane jako pamięć operacyjna czy wręcz cache. Obecnie jedynym minusem takich konstrukcji jest wysoka cena, ale trwają prace nad rozwiązaniem tego problemu.

Mirosław Fryzeł, kierownik działu sprzedaży, Wilk Elektronik

Użytkownicy zdecydują o tym, jak będzie wyglądał dysk przyszłości. Dlatego, szukając odpowiedzi na pytanie o kolejny etap ewolucji tego komponentu, należałoby raczej zrobić analizę zmian społecznych, zmian w sposobie używania sprzętu komputerowego. Świat idzie w stronę mobilności, więc raczej nie będzie tu miejsca na dyski magnetyczne. Kości bazujące na komórkach NAND są stale rozwijane, dopracowywane i jeszcze długie lata mogą być standardowym nośnikiem danych w sprzęcie, który dziś ciągle, choć bardziej symbolicznie, nazywamy dyskiem.

Mariusz Piórkowski, Billing Domain Architect, T-Mobile

W przyszłości znaczenie dysku twardego, jaki znamy od kilkudziesięciu lat, może ulec zmianie. Być może w następnym etapie rozwoju sprzętu komputerowego desktopy czy nawet notebooki przestaną być standardem. Jeśli przyszłość będzie należała do sprzętu ultramobilnego (a na to się zanosi), to pamięci przyszłości będą przede wszystkim bardzo szybkie i energooszczędne, nawet jeśli miałoby się to odbywać kosztem niskiej trwałości i niezawodności, bo w takim przypadku dane, które dziś mamy na dyskach, byłyby przechowywane na serwerach, w szeroko pojętej chmurze.

Niedoskonałości NAND – znane czy nie?

W przypadku zastosowań korporacyjnych czy serwerowych niedoskonałości SSD, takie jak upływność czy ograniczona liczba cykli, są bardzo dobrze znane administratorom oraz inżynierom, którzy są odpowiedzialni za odpowiednie wykorzystanie sprzętu. Dla nich pytanie nie brzmi, czy wymieniać SSD, ale kiedy to robić. Okazuje się, że wymiana dysków półprzewodnikowych w trybie prewencyjnym, niezależnie od ich kondycji, jest… opłacalna.

– Dyski SSD są wielokrotnie szybsze od HDD, pobierają znacznie mniej prądu, generują mniej ciepła i hałasu. Korzyści ich stosowania są tak duże, że wymiana sprzętu co kilka lat jest opłacalna ze względu na rachunek ekonomiczny, a do tego SSD są bezkonkurencyjne w porównaniu z HDD pod względem parametrów takich jak transfer i liczba operacji wejścia-wyjścia na sekundę – przekonuje Mariusz Piórkowski, Billing Domain Architect w T-Mobile.

W przypadku zastosowań serwerowych kwestie związane z bezpieczeństwem danych mają priorytet. Wymiana po określonym czasie jest integralnym etapem stosowania SSD. Ponadto systemy pamięci dyskowych w serwerach bazujące na SSD są zabezpieczone pod każdym względem względem (m.in. przez strukturę RAID), więc również ich awarie nie są groźne.

Co innego w przypadku odbiorców indywidualnych – z rozmów z dystrybutorami czy sprzedawcami wynika, że raczej nikt nie dba o to, by użytkownicy mieli pełną świadomość niedogodności bądź potencjalnego zagrożenia związanego z wykorzystywaniem dysków półprzewodnikowych. Z kolei producenci twierdzą, że dokładają starań, by zadbać o bezpieczeństwo.

– Wszystkie uszkodzenia, których wczesnym symptomem jest na przykład przyrost błędnych bitów danych, są wykrywane i sygnalizowane za pomocą atrybutów SMART. W naszych produktach stosujemy oprogramowanie monitorujące stan SSD. Przykładem jest Goodram Optimum SDD tool, który informuje użytkownika o wystąpieniu takich błędów, dzięki czemu może on podjąć właściwe działania – podkreśla Mirosław Fryzeł.

Również inni producenci dysponują softwarem monitorującym stan dysku.

– W trosce o optymalne używanie nośnika SSD udostępniamy użytkownikom bezpłatną, autorską aplikację SSD Scope. Zawiera ona wiele pomocnych narzędzi, takich jak status SMART, skanowanie diagnostyczne czy wskaźnik kondycji dysku. Program umożliwia również bezpieczne usuwanie i czyszczenie ze zbędnych danych, co zapobiega obniżeniu wydajności (tzw. TRIM). Łatwość korzystania z SSD Scope zachęca do częstego monitorowania stanu dysku. Dzięki temu użytkownik będzie bardziej świadomy nadchodzącej potrzeby jego wymiany – twierdzi Harry Shen.

Milczenie producentów

Jednak rzecz nie tylko w tym, by oferować odpowiednie narzędzia, ale by w sposób systemowy dotrzeć do użytkowników z odpowiednią informacją. Dlaczego producenci nie przykładają należytej wagi do kwestii uświadamiania użytkownikom niedoskonałości układów NAND? Zdaniem szefa Kaleronu czasami ich postawa może wynikać… z niewiedzy.

– Podczas rozmów z przedstawicielami producentów można odnieść wrażenie, że sami nie wiedzą dużo. Twierdzą, że problemy nie istnieją i są przekonujący, bo sami wierzą w to, co mówią. Zwłaszcza marketingowcy – jeśli zadać im pytanie, to najczęściej je zapisują i obiecują wrócić z odpowiedzią, ale nie wracają. Ci bardziej świadomi odpowiadają wprost, żeby się raczej nie interesować takimi kwestiami – mówi Paweł Kaczmarzyk.

Być może problem dotyczy też samego przepływu informacji? Inżynierom wyznacza się określone zadanie zaprojektowania układu spełniającego pożądane kryteria. Zwykle kości i kontrolery są projektowane i produkowane w zupełnie różnych firmach, więc specjaliści od technologii raczej nie kontaktują się ze sobą.

Przedstawiciele producentów generalnie nie kwapią się do rozmów na tematy związane z niedoskonałościami SSD. Przy zbieraniu materiałów do niniejszego artykułu, gdy zadawaliśmy bardzo konkretne pytania, spotykaliśmy się z różnymi reakcjami. Przedstawiciel jednej z bardzo dobrze znanych w Polsce marek odpowiedział, że w krajowym zespole nie ma osoby, która byłaby w stanie wyczerpująco omówić te zagadnienia. Nie powiodła się też próba zasugerowania rozwiązania, czyli skierowania pytań do centrali, gdyż tam na pewno jest ktoś kompetentny. Odpowiedź brzmiała: „oczywiście tak, ale pytania trzeba by przetłumaczyć, potem przetłumaczyć odpowiedzi, uzyskać ich autoryzację, co byłoby problematyczne, a na pewno długotrwałe, bo trzeba być pewnym, że i pytania, i odpowiedzi zostały dobrze zrozumiane i zinterpretowane, tak przez interlokutora, jak przez tłumaczy”.

Z kolei inny, również bardzo dobrze znany producent nie mógł ustosunkować się do poruszanych kwestii ze względu na wąskie kompetencje fachowców – trzeba by ich zebrać kilku w celu udzielenia pełnych odpowiedzi. Potem potrzeba kogoś, kto zbierze materiał w całość i autoryzuje, natomiast w okresie restrukturyzacji firmy i zmian organizacyjnych to nie jest możliwe… Następny producent powiedział wprost, że zgadza się w sprawie problemów związanych z układami najnowszych generacji, ale nie chce się pod tym podpisać, bo istnieje prawdopodobieństwo, że rynek odebrałby jego opinię jako kłopoty tej właśnie marki, a nie ogólnie rozwiązań NAND.

Jedynie Wilk Elektronik zdecydował się wziąć udział w naszej rozmowie i przedstawił dwie główne przyczyny awarii SSD. Pierwszą stanowią błędy oprogramowania, drugą zaś uszkodzenia flash. Jak zaznaczają przedstawiciele producenta, niezawodność dysków SSD jest bardzo wysoka – w przypadku produktów dobrej jakości nie przekracza ona 1 proc., natomiast w przypadku produktów niskiej jakości jest wielokrotnie większa. Opinię taką potwierdzają producenci komputerów.

– Awaryjność SSD wynosi od niespełna jednego do ponad trzech procent i zwykle zależy od marki. Wprawdzie różnica w cenie pomiędzy urządzeniami od sprawdzonych dostawców, którzy dysponują odpowiednim zapleczem technicznym i innymi zwykle nie przekracza 20 zł, ale w przypadku tanich komputerów będących przedmiotem przetargu zastosowanie kilku tańszych komponentów może oznaczać zmniejszenie ceny decydujące o wyborze sprzętu – mówi Tadeusz Kurek, prezes NTT System.

Wygląda na to, że za spokojną pracę użytkowników komputerów, bez narażania ich na stres związany z potencjalną utratą danych, odpowiedzialni powinni być resellerzy – i to na różnych etapach obsługi klienta. Już na początku winni go poinformować o tym, że każda operacja zapisu zużywa komórki kości NAND, czego ostatecznym efektem może być utrata dostępu do danych. Jeżeli dysk znajduje się we właśnie sprzedawanym nowym komputerze, powinna zostać zainstalowana na nim także aplikacja do weryfikacji stopnia zużycia dysku. Jeśli zaś klient kupuje sam nośnik, należy poinformować go o możliwości pobrania takiej aplikacji z witryny producenta. Również przy każdej interwencji serwisowej (także niezwiązanej z nośnikami danych) resellerzy powinni sprawdzać stopień ich zużycia i w razie potrzeby ostrzegać klientów.

Równanie z niewiadomymi

Kiedy nastąpi wyczerpanie potencjału rozwoju kości NAND? Czy będzie to oznaczało koniec rozwoju produktu zwanego w przypadku SSD już całkiem niesłusznie dyskiem twardym czy napędem (bo nie ma w nim przecież żadnych twardych ani wirujących elementów)? A może wręcz przeciwnie – okaże się, że problem był okazją w przebraniu… Tak naprawdę nie wiadomo. Co nie powinno dziwić resellerów z wieloletnim stażem, którzy z pewnością pamiętają intelowskie układy Pentium 4, do których świat pecetów miał należeć przez bardzo długi czas. W pierwotnych zamierzeniach twórców układu potencjał jego rozwoju miał być wprost nieskończony, bo twierdzono, że konstrukcja umożliwi zwiększanie taktowania zegara procesora aż do 10 GHz. Gdyby rzeczywiście tak było, to może co rok układy byłyby przyśpieszane o 1 GHz i do dziś używalibyśmy komputerów z jednordzeniowymi procesorami…