Odzyskiwanie danych z RAID 1
RAID 1 przechowuje kopię danych na dwóch lub więcej dyskach równocześnie. Jeśli jeden dysk jest sprawny i aktualny, odzysk bywa stosunkowo prosty. Problemy zaczynają się wtedy, gdy oba dyski mają uszkodzenia, mirror przez długi czas był niespójny albo ktoś zainicjował synchronizację w złym kierunku.
Przycisk "Napraw", "Rebuild" lub "Resync" w panelu NAS albo kontrolera oznacza próbę synchronizacji lub odbudowy, nie bezpieczne skopiowanie danych. Jeśli kontroler uzna, że uszkodzony lub nieaktualny dysk jest źródłem - nadpisze nim sprawną kopię. Jeśli danych nie ma nigdzie indziej, najpierw trzeba wykonać kopie posektorowe obu dysków. Dopiero potem można analizować i decydować co zrobić.
Jak działa RAID 1 - mirror, nie backup
RAID 1 zapisuje dane jednocześnie na dwóch (lub więcej) dyskach. Każdy dysk zawiera identyczną kopię woluminu. Pojemność użytkowa odpowiada jednemu dyskowi - drugi to lustro, nie dodatkowe miejsce.
Awaria jednego dysku nie powoduje utraty danych, bo drugi zawiera pełną kopię. To właśnie jest cel RAID 1 - redundancja na wypadek awarii sprzętowej.
Ale jest tu ważna pułapka, którą łatwo przeoczyć: kontroler RAID nie wie, które dane są "pożądane". On tylko pilnuje, żeby oba dyski zawierały to samo. Jeśli skasujesz plik, zostanie skasowany na obu. Jeśli zaszyfruje go ransomware, zaszyfruje na obu. Jeśli uszkodzi się system plików, uszkodzenie będzie na obu. RAID 1 chroni przed awarią sprzętu, a nie przed błędem użytkownika czy oprogramowania.
RAID 1 to redundancja, nie kopia zapasowa. Backup musi być w innym miejscu.
kopia A
kopia A
dead
kopia A - OK
zaszyfrowane
zaszyfrowane
Kiedy odzysk z RAID 1 jest stosunkowo prosty
W kilku typowych sytuacjach wystarczy jeden sprawny dysk i kilka godzin pracy. Nawet wtedy w laboratorium nie pracuje się na oryginale - zawsze najpierw klon.
Kiedy RAID 1 robi się problematyczny
Niespójność mirrorów w RAID 1 - gdy dwa dyski pokazują różne dane
Niespójność mirrorów to sytuacja, w której dwa dyski z RAID 1 przestają zawierać dokładnie te same dane. Jeden może mieć nowsze pliki, drugi starsze. Jeden może mieć mniej błędów odczytu, drugi - bardziej aktualny dziennik systemu plików. Wtedy nie wiadomo, który nośnik jest najlepszym źródłem do odzysku.
Dzieje się tak najczęściej, gdy kontroler padł w trakcie zapisu (jeden dysk zdążył zapisać blok, drugi nie), gdy jeden dysk był odłączony, a drugi dalej przyjmował zapisy, albo gdy resync poszedł w złym kierunku i zsynchronizował nowszą kopię ze starszego lub uszkodzonego źródła.
Przy niespójności mirrorów nie można zgadywać, który dysk jest dobry. Trzeba porównać dzienniki systemu plików (journal), znaczniki czasu transakcji i daty modyfikacji plików na obu obrazach. Dopiero z tej analizy wynika, który dysk ma aktualniejszy i bardziej spójny stan.
W niektórych przypadkach żaden dysk nie ma kompletnego, jednoznacznie najlepszego stanu - najnowsza wersja części danych może być na jednym nośniku, a część sektorów czytelniejsza na drugim. Wtedy składa się obraz kompozytowy z obu mirrorów.
- → Awaria zasilania w trakcie zapisu dużego pliku
- → Awaria kontrolera podczas synchronizacji
- → Odłączenie dysku kablem lub backplanem podczas pracy NAS-a
- → Resync zainicjowany z uszkodzonego albo nieaktualnego dysku
- → Długi okres pracy z jednym dyskiem (drugi odpadł wcześniej)
- → Błędne ręczne operacje na mdadm (np. mdadm --manage bez --fail)
Klient przynosi dwa dyski z NAS-a. Jeden ma datę ostatniej modyfikacji w tym tygodniu, drugi dwa miesiące temu. Na pierwszym jest nowsza wersja pliku Excel, na drugim starsza. Po awarii zasilania pierwszy dysk zapisał połowę transakcji, drugi nie zapisał nic - system plików na pierwszym jest niespójny, na drugim starszy ale spójny. W takiej sytuacji analizujemy oba obrazy i wybieramy "co z czego brać".
Resync i odbudowa RAID 1 - kiedy ma sens
Resync i odbudowa to normalne funkcje macierzy RAID 1, nie błąd sam w sobie. Mają sens w konkretnych sytuacjach - i nie mają sensu w innych.
Kiedy resync jest bezpieczny
Masz aktualną kopię zapasową danych na zewnętrznym nośniku albo w chmurze. Nawet jeśli resync pójdzie nie tak, dane są odtwarzalne. W tej sytuacji klikanie "Napraw" w DSM albo "Rebuild" w kontrolerze jest normalną procedurą.
Albo: dane na macierzy nie są krytyczne, akceptujesz ryzyko, a jeden dysk jest zdecydowanie nowszy i sprawniejszy niż drugi. Kontroler z dużym prawdopodobieństwem wybierze prawidłowe źródło.
Kiedy resync jest ryzykowny
Dane są tylko na tej macierzy i nigdzie indziej. Nie ma kopii. W tej sytuacji zanim zainicjujesz cokolwiek - wykonaj kopie posektorowe obu dysków. To może trwać kilka godzin, ale daje pewność że oryginalne stany dysków są zachowane niezależnie od tego co stanie się dalej.
Resync może nadpisać nowszą kopię starszą, jeśli kontroler pomyli kierunek. Może też zostać przerwany błędem odczytu, zostawiając macierz w stanie niespójnym.
Jeśli pliki zostały skasowane albo zaszyfrowane, oba dyski zawierają już taką samą wersję danych. Resync nie "cofa" operacji. Odzysk musi iść przez analizę systemu plików, dzienniki transakcji, rekonstrukcję inode lub file carving. Resync tu nie jest ani pomocny, ani szkodliwy - po prostu irrelewantny.
Jeśli danych nie ma nigdzie indziej - najpierw kopia posektorowa 1:1 każdego dysku na osobny nośnik. Dopiero z kopii możesz robić co chcesz. Oryginały zostają nieruszone.
Błędy odczytu i uszkodzone sektory w mirrorze
Dysk może nie być w stanie odczytać niektórych sektorów. Objawy to I/O error przy kopiowaniu, zawieszanie się systemu przy dostępie do konkretnych plików, błędy SMART w atrybutach Reallocated Sectors Count albo Current Pending Sectors, albo po prostu NAS logujący błędy odczytu bez widocznego problemu dla użytkownika.
W dokumentacji producentów takie błędy opisywane są jako URE - unrecoverable read error, czyli nieodwracalny błąd odczytu sektora. Każdy dysk ma statystyczny wskaźnik jak często takie błędy mogą wystąpić - im większy i starszy dysk, tym to prawdopodobieństwo wyższe.
Jeśli jeden dysk ma błąd w danym miejscu (sektor nieodczytywalny), drugi dysk z mirrora może mieć ten sektor w porządku. Obrazując oba dyski i porównując je sektorowo, możemy złożyć pełny obraz z fragmentów które są czytelne na każdym z nich. Jeden dysk z 99% czytelnością i drugi z 98% czytelnością w innych miejscach to razem potencjalnie 100% danych.
Proces odzysku z RAID 1 krok po kroku
RAID 1 w Synology, QNAP i na serwerach
Czego nie robić po awarii RAID 1
- Nie inicjuj resync ani rebuild bez wcześniejszej kopii posektorowej obu dysków - jeśli dane nie istnieją nigdzie indziej
- Nie klikaj "Napraw" w DSM ani "Rebuild" w QTS bez sprawdzenia kierunku synchronizacji
- Nie inicjalizuj dysków ani nie twórz nowej macierzy na dyskach z danymi
- Nie formatuj żadnego z dysków
- Nie przekładaj dysków losowo do innego NAS-a lub kontrolera bez sprawdzenia dokumentacji
- Nie uruchamiaj fsck ani CHKDSK na oryginalnym dysku - najpierw klon, potem narzędzia
- Nie kopiuj plików na uszkodzony dysk ani nie zapisuj niczego nowego na macierzy po awarii
- Nie pracuj na jedynej kopii danych - zawsze najpierw klon
Ile kosztuje odzysk z RAID 1
Wstępna ocena po opisie sprawy jest bezpłatna. Diagnoza laboratoryjna po dostarczeniu dysków kosztuje 250 zł brutto i jest wliczana w cenę odzysku, jeśli zlecasz usługę. Brak danych oznacza brak opłaty za odzysk - płacisz tylko za diagnozę.
| Przypadek | Orientacyjny koszt |
|---|---|
| Jeden sprawny mirror, czytelny system plików - odzysk logiczny | 800-1 200 zł |
| Oba dyski z błędami odczytu, uszkodzony system plików lub niespójność mirrorów | 1 200-2 500 zł |
| Uszkodzenia mechaniczne (głowice, PCB), naprawa przed klonowaniem | od 2 000 zł |
Jak przygotować dyski RAID 1 do diagnozy
- Wyłącz NAS lub serwer - nie zostawiaj go włączonego "żeby zebrać logi"
- Oznacz dyski numerami kieszeni markerem - kolejność może mieć znaczenie
- Nie zmieniaj kolejności i nie przekładaj dysków przed wysyłką
- Zapisz model NAS-a lub kontrolera i wersję firmware jeśli znasz
- Zapisz komunikat z panelu DSM / QTS / iDRAC - zrzut ekranu albo przepisany tekst
- Podaj informację czy był robiony resync lub rebuild i kiedy
- Podaj informację czy dane były skasowane, zaszyfrowane albo nadpisane
- Dostarcz oba dyski - nawet jeśli jeden wydaje się sprawny
FAQ - RAID 1
RAID 1 nie działa? Opisz sytuację.
Ile dysków, jaki NAS lub serwer, co pokazuje panel, czy był resync. Na tej podstawie powiem co mogło się stać i co dalej - zazwyczaj tego samego dnia.