Odzysk danych - RAID 1

Odzyskiwanie danych z RAID 1

RAID 1 przechowuje kopię danych na dwóch lub więcej dyskach równocześnie. Jeśli jeden dysk jest sprawny i aktualny, odzysk bywa stosunkowo prosty. Problemy zaczynają się wtedy, gdy oba dyski mają uszkodzenia, mirror przez długi czas był niespójny albo ktoś zainicjował synchronizację w złym kierunku.

Laboratorium w Łodzi
Kopie posektorowe 1:1
Analiza kopii lustrzanych
Rozliczenie po wyniku
RAID 1 w stanie degraded? Zanim klikniesz "Napraw" albo "Resync" - przeczytaj to.

Przycisk "Napraw", "Rebuild" lub "Resync" w panelu NAS albo kontrolera oznacza próbę synchronizacji lub odbudowy, nie bezpieczne skopiowanie danych. Jeśli kontroler uzna, że uszkodzony lub nieaktualny dysk jest źródłem - nadpisze nim sprawną kopię. Jeśli danych nie ma nigdzie indziej, najpierw trzeba wykonać kopie posektorowe obu dysków. Dopiero potem można analizować i decydować co zrobić.
Podstawy

Jak działa RAID 1 - mirror, nie backup

RAID 1 zapisuje dane jednocześnie na dwóch (lub więcej) dyskach. Każdy dysk zawiera identyczną kopię woluminu. Pojemność użytkowa odpowiada jednemu dyskowi - drugi to lustro, nie dodatkowe miejsce.

Awaria jednego dysku nie powoduje utraty danych, bo drugi zawiera pełną kopię. To właśnie jest cel RAID 1 - redundancja na wypadek awarii sprzętowej.

Ale jest tu ważna pułapka, którą łatwo przeoczyć: kontroler RAID nie wie, które dane są "pożądane". On tylko pilnuje, żeby oba dyski zawierały to samo. Jeśli skasujesz plik, zostanie skasowany na obu. Jeśli zaszyfruje go ransomware, zaszyfruje na obu. Jeśli uszkodzi się system plików, uszkodzenie będzie na obu. RAID 1 chroni przed awarią sprzętu, a nie przed błędem użytkownika czy oprogramowania.

RAID 1 to redundancja, nie kopia zapasowa. Backup musi być w innym miejscu.

Jak działa mirror
Zapis
Kontroler
Dysk 1
kopia A
Dysk 2
kopia A
Awaria
Kontroler
Dysk 1
dead
Dysk 2
kopia A - OK
Ransomware
Kontroler
Dysk 1
zaszyfrowane
Dysk 2
zaszyfrowane
Kontroler nie ocenia czy dane są "poprawne" - tylko synchronizuje je między dyskami.
Dobre scenariusze

Kiedy odzysk z RAID 1 jest stosunkowo prosty

W kilku typowych sytuacjach wystarczy jeden sprawny dysk i kilka godzin pracy. Nawet wtedy w laboratorium nie pracuje się na oryginale - zawsze najpierw klon.

Jeden dysk padł, drugi jest sprawny i aktualny
Klasyczny przypadek - dysk mechanicznie uszkodzony, drugi w porządku. Kopia posektorowa sprawnego dysku, analiza systemu plików, ekstrakcja danych. Przy sprawnym systemie plików i aktualnym mirrorze to jeden z łatwiejszych przypadków w odzysku danych.
Odzysk często w kilka dni roboczych.
NAS nie działa, ale dyski są czytelne
Kontroler, zasilacz lub płyta NAS-a padła, ale dyski nie mają uszkodzeń. Dyski z mirrorem mdadm albo prostego RAID 1 można podpiąć bezpośrednio do PC i odczytać jako zwykłe dyski (przy linuxowym systemie plików) albo złożyć mirror ręcznie. Dane są dostępne.
Warto spróbować podpięcia pod Linux przed wysyłką.
Uszkodzony system plików, oba dyski czytelne
Btrfs, ext4 albo NTFS na sprawnym sprzętowo dysku ma uszkodzone metadane - po awarii zasilania, błędnym fsck albo przerwaniu zapisu. Dysk jest fizycznie OK, ale wolumen nie mountuje. Kopia posektorowa, potem praca na systemie plików z narzędziami do odzysku.
Nie uruchamiaj fsck na oryginale przed sklonowaniem.
Trudne przypadki

Kiedy RAID 1 robi się problematyczny

Jeden dysk wypadł dawno temu, użytkownik nie zauważył
Macierz działała miesiącami lub latami z jednym dyskiem. Drugi dysk jest zdegradowany od dawna. Teraz padł ten jedyny sprawny. Dane na nim mogą być najnowsze, ale będą miały uszkodzone sektory z wielomiesięcznej pracy bez redundancji. Odzysk możliwy, ale wymagający.
Kopia posektorowa z wielokrotnymi przebiegami - najpierw dobra obszary, potem słabe.
Oba dyski mają błędy odczytu lub uszkodzone sektory
Żaden dysk nie jest sprawny w 100%. Jeden może mieć błędy w innym miejscu niż drugi - to akurat jest do wykorzystania, bo porównując oba obrazy można złożyć kompletny obraz z fragmentów które są czytelne na każdym z nich.
Obrazujemy oba dyski. Sprawny sektor na jednym uzupełnia nieczytelny na drugim.
Resync wykonany w złym kierunku
Nowy lub zastępczy dysk oznaczony jako źródło, sprawny dysk jako cel - i synchronizacja "wyprasowała" nowsze dane starszymi albo pustymi. Kontroler nie pyta użytkownika czy jest pewien - po prostu robi co mu powiedziano. Zdarza się przy wymianie dysków w NAS-ie bez wcześniejszego sprawdzenia kierunku synchronizacji.
Wyłącz natychmiast. Nie próbuj odwrócić operacji kolejnym resyncem.
Skasowanie danych lub ransomware
Pliki zostały skasowane albo zaszyfrowane, a mirror wiernie powielił operację na drugi dysk. Tutaj RAID 1 nie pomaga - oba dyski zawierają identyczną uszkodzoną wersję. Odzysk jest możliwy metodami odzysku logicznego (journal, inode, carving), ale nie jest łatwiejszy niż z jednego dysku.
Nie pisz nic nowego na żaden dysk. Każdy nowy plik może nadpisać usunięte.
Przekładanie dysków do innego NAS-a lub kontrolera
Dyski z mirrora wkładane do innego modelu NAS-a lub innego kontrolera sprzętowego mogą zostać zainicjalizowane na nowo, nie rozpoznane albo zsynchronizowane z czystymi metadanymi nowego sprzętu. Przy mdadm na Synology i QNAP ryzyko jest mniejsze, przy sprzętowych kontrolerach (LSI, Dell PERC) - zdecydowanie wyższe.
Przed przełożeniem dysków - sprawdź dokumentację lub opisz konfigurację.
Trudny przypadek

Niespójność mirrorów w RAID 1 - gdy dwa dyski pokazują różne dane

Niespójność mirrorów to sytuacja, w której dwa dyski z RAID 1 przestają zawierać dokładnie te same dane. Jeden może mieć nowsze pliki, drugi starsze. Jeden może mieć mniej błędów odczytu, drugi - bardziej aktualny dziennik systemu plików. Wtedy nie wiadomo, który nośnik jest najlepszym źródłem do odzysku.

Dzieje się tak najczęściej, gdy kontroler padł w trakcie zapisu (jeden dysk zdążył zapisać blok, drugi nie), gdy jeden dysk był odłączony, a drugi dalej przyjmował zapisy, albo gdy resync poszedł w złym kierunku i zsynchronizował nowszą kopię ze starszego lub uszkodzonego źródła.

Przy niespójności mirrorów nie można zgadywać, który dysk jest dobry. Trzeba porównać dzienniki systemu plików (journal), znaczniki czasu transakcji i daty modyfikacji plików na obu obrazach. Dopiero z tej analizy wynika, który dysk ma aktualniejszy i bardziej spójny stan.

W niektórych przypadkach żaden dysk nie ma kompletnego, jednoznacznie najlepszego stanu - najnowsza wersja części danych może być na jednym nośniku, a część sektorów czytelniejsza na drugim. Wtedy składa się obraz kompozytowy z obu mirrorów.

Typowe przyczyny niespójności mirrorów w RAID 1
  • → Awaria zasilania w trakcie zapisu dużego pliku
  • → Awaria kontrolera podczas synchronizacji
  • → Odłączenie dysku kablem lub backplanem podczas pracy NAS-a
  • → Resync zainicjowany z uszkodzonego albo nieaktualnego dysku
  • → Długi okres pracy z jednym dyskiem (drugi odpadł wcześniej)
  • → Błędne ręczne operacje na mdadm (np. mdadm --manage bez --fail)
Jak to wygląda w praktyce:

Klient przynosi dwa dyski z NAS-a. Jeden ma datę ostatniej modyfikacji w tym tygodniu, drugi dwa miesiące temu. Na pierwszym jest nowsza wersja pliku Excel, na drugim starsza. Po awarii zasilania pierwszy dysk zapisał połowę transakcji, drugi nie zapisał nic - system plików na pierwszym jest niespójny, na drugim starszy ale spójny. W takiej sytuacji analizujemy oba obrazy i wybieramy "co z czego brać".
Ważna kwestia

Resync i odbudowa RAID 1 - kiedy ma sens

Resync i odbudowa to normalne funkcje macierzy RAID 1, nie błąd sam w sobie. Mają sens w konkretnych sytuacjach - i nie mają sensu w innych.

Kiedy resync jest bezpieczny

Masz aktualną kopię zapasową danych na zewnętrznym nośniku albo w chmurze. Nawet jeśli resync pójdzie nie tak, dane są odtwarzalne. W tej sytuacji klikanie "Napraw" w DSM albo "Rebuild" w kontrolerze jest normalną procedurą.

Albo: dane na macierzy nie są krytyczne, akceptujesz ryzyko, a jeden dysk jest zdecydowanie nowszy i sprawniejszy niż drugi. Kontroler z dużym prawdopodobieństwem wybierze prawidłowe źródło.

Kiedy resync jest ryzykowny

Dane są tylko na tej macierzy i nigdzie indziej. Nie ma kopii. W tej sytuacji zanim zainicjujesz cokolwiek - wykonaj kopie posektorowe obu dysków. To może trwać kilka godzin, ale daje pewność że oryginalne stany dysków są zachowane niezależnie od tego co stanie się dalej.

Resync może nadpisać nowszą kopię starszą, jeśli kontroler pomyli kierunek. Może też zostać przerwany błędem odczytu, zostawiając macierz w stanie niespójnym.

Przy skasowanych danych lub ransomware resync nie pomoże

Jeśli pliki zostały skasowane albo zaszyfrowane, oba dyski zawierają już taką samą wersję danych. Resync nie "cofa" operacji. Odzysk musi iść przez analizę systemu plików, dzienniki transakcji, rekonstrukcję inode lub file carving. Resync tu nie jest ani pomocny, ani szkodliwy - po prostu irrelewantny.
Złota zasada przed resyncem

Jeśli danych nie ma nigdzie indziej - najpierw kopia posektorowa 1:1 każdego dysku na osobny nośnik. Dopiero z kopii możesz robić co chcesz. Oryginały zostają nieruszone.

Techniczne

Błędy odczytu i uszkodzone sektory w mirrorze

Dysk może nie być w stanie odczytać niektórych sektorów. Objawy to I/O error przy kopiowaniu, zawieszanie się systemu przy dostępie do konkretnych plików, błędy SMART w atrybutach Reallocated Sectors Count albo Current Pending Sectors, albo po prostu NAS logujący błędy odczytu bez widocznego problemu dla użytkownika.

W dokumentacji producentów takie błędy opisywane są jako URE - unrecoverable read error, czyli nieodwracalny błąd odczytu sektora. Każdy dysk ma statystyczny wskaźnik jak często takie błędy mogą wystąpić - im większy i starszy dysk, tym to prawdopodobieństwo wyższe.

Dlaczego przy RAID 1 warto mieć oba dyski nawet jeśli jeden wydaje się sprawny:

Jeśli jeden dysk ma błąd w danym miejscu (sektor nieodczytywalny), drugi dysk z mirrora może mieć ten sektor w porządku. Obrazując oba dyski i porównując je sektorowo, możemy złożyć pełny obraz z fragmentów które są czytelne na każdym z nich. Jeden dysk z 99% czytelnością i drugi z 98% czytelnością w innych miejscach to razem potencjalnie 100% danych.
Jak pracujemy

Proces odzysku z RAID 1 krok po kroku

1
Dokumentacja i weryfikacja stanu dysków
SMART każdego dysku, model NAS-a lub kontrolera, komunikaty z panelu, informacja czy był resync lub rebuild, kolejność dysków w kieszeniach. Identyfikacja z jakim typem awarii mamy do czynienia i ile mirrorów jest do przetworzenia.
2
Kopie posektorowe 1:1 każdego dysku
PC-3000 Data Extractor, tryb write-blocked - żaden zapis na oryginał nie jest możliwy. Dyski z błędami odczytu klonowane wieloma przebiegami: najpierw czytelne sektory, potem ponowne próby słabych obszarów z różnymi parametrami odczytu. Pracujemy wyłącznie na kopiach.
3
Naprawa dysków z uszkodzeniami mechanicznymi (jeśli potrzeba)
Wymiana głowic albo naprawa PCB w komorze laminarnej, jeśli jeden z mirrorów nie odpowiada fizycznie. Celem jest uczynienie dysku czytelnym na tyle by ukończyć klon - nie trwała naprawa dysku.
4
Porównanie obrazów - który mirror jest aktualniejszy?
Porównanie dzienników systemu plików (journal), znaczników czasu transakcji, dat modyfikacji plików. Przy niespójności mirrorów - identyfikacja, które sektory różnią się między mirrorami i dlaczego. Wybór aktualniejszego i bardziej spójnego obrazu jako źródła, albo złożenie obrazu kompozytowego.
5
Analiza systemu plików i ekstrakcja danych
Montowanie systemu plików na kopii (EXT4, Btrfs, NTFS, XFS, ZFS). Przy uszkodzonych metadanych - rekonstrukcja struktury katalogów, analiza inode, journal replay. Wyciąganie danych do miejsca docelowego.
6
Weryfikacja i przekazanie danych
Lista odzyskanych plików do Twojej akceptacji przed płatnością. Możesz zapytać o konkretne pliki lub katalogi. Płatność po akceptacji wyniku.
Środowiska

RAID 1 w Synology, QNAP i na serwerach

Synology DSM
SHR-1 i RAID 1 na Btrfs / EXT4
Synology SHR z jednym dyskiem tolerancji przy dwóch dyskach tej samej pojemności działa jak klasyczny RAID 1. Przy różnych pojemnościach - jak RAID 5. System plików to zazwyczaj Btrfs lub EXT4. Btrfs ma własny mechanizm sprawdzania integralności - uszkodzone metadane Btrfs to osobna warstwa problemu niezależna od stanu mirrora.
QNAP QTS
mdadm RAID 1 / LVM / EXT4
QNAP QTS używa standardowego mdadm Linux RAID z LVM i EXT4. Mirror jest dostępny jako /dev/md*, co ułatwia pracę bezpośrednio z dyskami pod Linuxem. Dyski z QNAP QTS można podpiąć pod Linux i złożyć mirror ręcznie bez oryginalnego NAS-a.
QNAP QuTS hero
ZFS mirror
Nowszy system QNAP oparty na ZFS. Mirror ZFS działa inaczej niż mdadm - zdegradowany pool ZFS nie montuje się bez quorum, import z flagą -f jest ryzykowny. Dane są jednak na dyskach i możliwe do odzysku przy pracy na obrazach.
LSI / Dell PERC / HP Smart Array
Sprzętowy kontroler RAID
Sprzętowe kontrolery RAID 1 przechowują konfigurację w NVRAM i na dyskach. Dyski przeniesione do innego kontrolera tego samego producenta często są rozpoznawane automatycznie ("Foreign Configuration"). Przeniesienie do innego producenta lub modelu to ryzyko - kontroler może wymagać inicjalizacji.
Linux mdadm
Software RAID 1
Najprostszy w obsłudze przy odzysku. Dyski mdadm RAID 1 można podpiąć pod dowolny system Linux, złożyć mirror poleceniem mdadm --assemble i odczytać dane nawet bez jednego z dysków. Metadane mdadm na dyskach zawierają pełną konfigurację macierzy.
Windows Server
Dynamic Disks / Storage Spaces
Windows Dynamic Disks Mirror i Storage Spaces Mirror mają własne metadane (LDM/SBL). Przeniesienie dysków do innego systemu Windows wymaga importu "Foreign Disk" - zazwyczaj działa. Dostęp z Linuxa jest możliwy przez specjalne narzędzia ale wymaga ostrożności.
Unikaj

Czego nie robić po awarii RAID 1

  • Nie inicjuj resync ani rebuild bez wcześniejszej kopii posektorowej obu dysków - jeśli dane nie istnieją nigdzie indziej
  • Nie klikaj "Napraw" w DSM ani "Rebuild" w QTS bez sprawdzenia kierunku synchronizacji
  • Nie inicjalizuj dysków ani nie twórz nowej macierzy na dyskach z danymi
  • Nie formatuj żadnego z dysków
  • Nie przekładaj dysków losowo do innego NAS-a lub kontrolera bez sprawdzenia dokumentacji
  • Nie uruchamiaj fsck ani CHKDSK na oryginalnym dysku - najpierw klon, potem narzędzia
  • Nie kopiuj plików na uszkodzony dysk ani nie zapisuj niczego nowego na macierzy po awarii
  • Nie pracuj na jedynej kopii danych - zawsze najpierw klon
Koszty

Ile kosztuje odzysk z RAID 1

Wstępna ocena po opisie sprawy jest bezpłatna. Diagnoza laboratoryjna po dostarczeniu dysków kosztuje 250 zł brutto i jest wliczana w cenę odzysku, jeśli zlecasz usługę. Brak danych oznacza brak opłaty za odzysk - płacisz tylko za diagnozę.

PrzypadekOrientacyjny koszt
Jeden sprawny mirror, czytelny system plików - odzysk logiczny 800-1 200 zł
Oba dyski z błędami odczytu, uszkodzony system plików lub niespójność mirrorów 1 200-2 500 zł
Uszkodzenia mechaniczne (głowice, PCB), naprawa przed klonowaniem od 2 000 zł
Ostateczna cena zależy od stanu dysków, liczby nośników i zakresu pracy. Przy mirrorach z kilkoma terabajtami danych czas pracy może być znacznie dłuższy niż przy małych dyskach - to wpływa na wycenę.
Zanim wyślesz dyski

Jak przygotować dyski RAID 1 do diagnozy

  • Wyłącz NAS lub serwer - nie zostawiaj go włączonego "żeby zebrać logi"
  • Oznacz dyski numerami kieszeni markerem - kolejność może mieć znaczenie
  • Nie zmieniaj kolejności i nie przekładaj dysków przed wysyłką
  • Zapisz model NAS-a lub kontrolera i wersję firmware jeśli znasz
  • Zapisz komunikat z panelu DSM / QTS / iDRAC - zrzut ekranu albo przepisany tekst
  • Podaj informację czy był robiony resync lub rebuild i kiedy
  • Podaj informację czy dane były skasowane, zaszyfrowane albo nadpisane
  • Dostarcz oba dyski - nawet jeśli jeden wydaje się sprawny
Najczęstsze pytania

FAQ - RAID 1

Tak. Każdy dysk w mirrorze zawiera pełną kopię danych. Jeśli jeden dysk jest sprawny i aktualny, odzysk sprowadza się do kopii posektorowej i analizy systemu plików - bez potrzeby rekonstrukcji macierzy. Problem pojawia się gdy dysk ma uszkodzenia fizyczne albo gdy mirror przez długi czas był niespójny i nie wiadomo jak aktualna jest jego zawartość.
Nie. RAID 1 chroni przed awarią sprzętową jednego dysku, ale nie przed skasowaniem pliku, ransomware, uszkodzeniem systemu plików, przepięciem, pożarem ani zalaniem. Kontroler RAID nie ocenia czy dane są "poprawne" - po prostu synchronizuje oba dyski. Jeśli skasujesz plik, skasowanie jest natychmiast powielone. Backup musi być w innym fizycznym miejscu.
To zależy. Jeśli masz aktualną kopię zapasową danych - klikaj, to normalna procedura. Jeśli danych nie ma nigdzie indziej - najpierw wykonaj kopie posektorowe obu dysków na zewnętrzny nośnik. Dopiero z kopii możesz robić co chcesz z oryginałami. "Napraw" w DSM to synchronizacja, nie bezpieczne skopiowanie danych.
Obrazujemy oba dyski. Każdy dysk może mieć błędy w różnych miejscach - tam gdzie jeden dysk ma nieczytelny sektor, drugi może mieć go bez problemu. Porównując dwa obrazy sektorowo można złożyć kompletny lub prawie kompletny obraz danych. Jeden dysk z 99% czytelnością i drugi z 98% w innych miejscach to razem potencjalnie komplet.
Niespójność mirrorów to sytuacja, gdy dwa dyski z RAID 1 przestają zawierać identyczne dane. Jeden może mieć nowszą wersję pliku, drugi starszą. Dzieje się tak po awarii zasilania w trakcie zapisu, po odłączeniu dysku podczas pracy macierzy albo gdy resync poszedł w złym kierunku. Przy niespójności mirrorów nie wiadomo, który dysk ma właściwą wersję danych - trzeba porównać oba obrazy przez analizę dzienników systemu plików i znaczników czasu.
Tak, jeśli pójdzie w złym kierunku. Kontroler może uznać nieaktualny lub uszkodzony dysk za źródło i nadpisać nim nowszy. Nie ma opcji "cofnij" po zakończonym resyncu. Dlatego jeśli danych nie ma nigdzie indziej - najpierw kopie posektorowe obu dysków, potem ewentualny resync.
W prostych przypadkach - tak, bo nie ma potrzeby rekonstrukcji macierzy. Jeden sprawny dysk to praca jak przy jednym dysku. Przy niespójności mirrorów, uszkodzeniach obu dysków albo awarii mechanicznej - koszty są zbliżone albo wyższe, bo trzeba obrazować i porównywać dwa dyski zamiast jednego.
Najlepiej tak, nawet jeśli jeden wydaje się sprawny. Drugi dysk może mieć sektory, których brakuje na pierwszym. Przy podejrzeniu niespójności mirrorów oba dyski są niezbędne do określenia, który jest aktualniejszy. W wycenie wystarczy opisać stan - ocenię co jest potrzebne przed wysyłką.

RAID 1 nie działa? Opisz sytuację.

Ile dysków, jaki NAS lub serwer, co pokazuje panel, czy był resync. Na tej podstawie powiem co mogło się stać i co dalej - zazwyczaj tego samego dnia.

Zadzwoń Wyślij nośnik