Odzysk danych - RAID 5

Odzyskiwanie danych z RAID 5

RAID 5 toleruje awarię jednego dysku - pod warunkiem, że pozostałe dyski są w dobrej kondycji. Próba odbudowy na zużytych lub niestabilnych nośnikach może znacznie pogorszyć sytuację i skończyć się stanem "failed". Jeśli Twoja macierz pokazuje "zdegradowana pula pamięci", "wolumin uległ awarii" lub brakuje jednego dysku - przed wciśnięciem "Napraw" w DSM skonsultuj się z laboratorium.

Synology, QNAP, serwery
PC-3000 + rekonstrukcja RAID
Wstępna ocena bezpłatna
Odzysk rozliczany po wyniku
Priorytet

Kiedy od razu wyłączyć macierz RAID 5?

W tych sytuacjach każda minuta pracy macierzy zwiększa ryzyko utraty danych. Wyłącz i nie uruchamiaj ponownie bez konsultacji z laboratorium.

  • Synology DSM pokazuje "Wolumin uległ awarii" lub "Zdegradowana pula pamięci masowej"
  • QNAP QTS pokazuje "Storage Pool Degraded" lub dysk oznaczony jako uszkodzony
  • Rebuild zatrzymał się w połowie lub zakończył błędem
  • Brakuje więcej niż jednego dysku w macierzy
  • NAS lub kontroler prosi o inicjalizację lub "Foreign Configuration"
  • Słychać klikanie z jednego z dysków w trakcie pracy
  • Macierz jest zdegradowana od dłuższego czasu i dopiero teraz to zauważyłeś
Nie klikaj "Napraw" w DSM ani "Rebuild" w QTS, jeśli nie masz aktualnej kopii danych. Rebuild ma sens wtedy, gdy zawartość obecnej, uszkodzonej macierzy jest już zabezpieczona i akceptujesz ryzyko niepowodzenia. Jeżeli nie masz kopii, najpierw trzeba wykonać kopie posektorowe 1:1 wszystkich dysków: do obrazów dysków albo na inne nośniki. Dopiero z takich kopii bezpiecznie analizuje się konfigurację RAID i stan systemu plików.
Podstawy

Jak działa RAID 5 - parzystość i rotacja

RAID 5 rozkłada dane i bloki parzystości (parity) na wszystkich dyskach w macierzy. Każdy wiersz danych jest podzielony na bloki - większość to dane, jeden to XOR parzystości. Bloki parzystości rotują między dyskami - nie ma jednego dysku przeznaczonego tylko na parzystość.

Dzięki temu awaria jednego dysku nie niszczy danych. Kontroler odtwarza zawartość martwego dysku z parzystości i pozostałych członków. Tablica działa dalej w trybie "zdegradowanym" - wolniej, bez redundancji, ale działa.

Problem zaczyna się wtedy, gdy chcesz tę redundancję przywrócić - czyli podczas odbudowy. Sama funkcja rebuild nie jest błędem. Jest przeznaczona do sytuacji, w której masz aktualną kopię danych albo świadomie akceptujesz ryzyko, że odbudowa może się nie udać.

Przykład: 3-dyskowy RAID 5
Stripe 1
D1
D2
P
Stripe 2
D3
P
D4
Stripe 3
P
D5
D6
Dysk 2 ↓
D1
D2
P
Po awarii dysku 2: D2 = XOR(D1, P) - dane odtworzone z parzystości. Tablica zdegradowana, ale działa.
Kluczowa kwestia

Dlaczego odbudowa RAID 5 jest ryzykowna

To jest powód, dla którego część przypadków RAID 5 trafia do laboratorium w gorszym stanie niż mogłaby - nie z powodu samej awarii, ale z powodu próby odbudowy bez wcześniejszego zabezpieczenia danych.

Kiedy rebuild jest właściwą opcją?

Rebuild / odbudowa macierzy RAID 5 jest normalną funkcją kontrolera lub NAS-a. Powinna być wykonywana wtedy, gdy masz kopię zapasową zawartości obecnej macierzy i nie przejmujesz się konsekwencjami nieudanej odbudowy. Jeżeli danych nie ma nigdzie indziej, bezpieczniejsza kolejność to: wyłączyć macierz, oznaczyć kolejność dysków, wykonać kopie posektorowe 1:1 wszystkich członków macierzy i dopiero z tych kopii składać RAID wirtualnie.

URE - Unrecoverable Read Error

Każdy dysk twardy ma w specyfikacji wskaźnik URE (Unrecoverable Read Error Rate) - określa on, po ilu odczytanych bitach statystycznie może wystąpić jeden nieodczytywalny sektor. Dla dysków klasy NAS/SMB (WD Red, Seagate IronWolf) wynosi to zazwyczaj 10¹⁴ bitów.

Nie jest to precyzyjny licznik awarii ani gwarancja, że tyle błędów wystąpi - to wskaźnik graniczny określony przez producenta w określonych warunkach testowych. Pokazuje jednak skalę ryzyka: odbudowa dużej macierzy wymaga przeczytania wielu terabajtów danych z dysków, które często są już kilkuletnie i pracowały przez długi czas w stanie zdegradowanym.

Im większe dyski i im dłużej macierz pracowała bez redundancji, tym większa szansa, że odbudowa zatrzyma się na błędach odczytu.

Co się dzieje gdy rebuild trafi na błąd

Odbudowa RAID 5 to proces zapisu - kontroler oblicza zawartość nowego dysku z danych pozostałych członków i zapisuje wynik. Jeśli w trakcie odczytu którykolwiek z "sprawnych" dysków zwróci błąd, macierz może przejść w stan failed lub offline. Na nowym dysku może powstać częściowo odbudowany, niespójny obraz danych, szczególnie jeśli kontroler kontynuował pracę mimo błędów odczytu albo użytkownik wykonywał kolejne próby odbudowy. Macierz nie zawsze wraca wtedy do stanu spójnego.

Dyski NAS/SMB a dyski enterprise

WD Red, Seagate IronWolf i podobne to dyski klasy NAS/SMB - przeznaczone do pracy ciągłej w małych macierzach i serwerach plików. Dyski enterprise (Seagate Exos, WD Gold, HGST Ultrastar) często mają wyższą deklarowaną odporność na błędy odczytu i są projektowane pod cięższe obciążenia.

Nie oznacza to, że dyski NAS/SMB są złe - tylko że rebuild na kilkuletnim zestawie wymaga ostrożności i wcześniejszego sprawdzenia stanu SMART każdego dysku.
Macierz zdegradowana od dłuższego czasu?

Jeśli jeden dysk wypadł kilka tygodni lub miesięcy temu i dopiero teraz to zauważyłeś - pozostałe dyski pracowały bez redundancji przez cały ten czas. Zanim zaczniesz odbudowę, sprawdź SMART każdego dysku. Podejrzane reallocated sectors, pending sectors lub uncorrectable errors to sygnał, że odbudowa może zakończyć się niepowodzeniem.
Typowe przypadki

Scenariusze awarii RAID 5 - co i dlaczego

Zdegradowana pula pamięci - jeden dysk wypadł
Najczęstszy przypadek. Dysk wypadł z macierzy (awaria mechaniczna, przekroczony próg SMART, timeout). RAID 5 działa teraz bez redundancji. Dane są dostępne, ale macierz nie ma już marginesu bezpieczeństwa. Kolejny poważny błąd odczytu lub odpadnięcie następnego dysku może zablokować dostęp do wolumenu i znacznie utrudnić odzysk.
Sklonuj wszystkich członków przed odbudową.
Nieudana odbudowa - drugi dysk padł w trakcie
Rebuild trwał kilkanaście godzin, w połowie drugi dysk zaczął zgłaszać błędy i wypadł. Macierz w stanie "offline" lub "failed". Część danych mogła zostać nadpisana albo pozostać w stanie niespójnym po częściowej odbudowie.
Wyłącz natychmiast. Każda kolejna próba pogarsza sytuację.
Wolumin uległ awarii / zdegradowana pula pamięci - Synology DSM
DSM informuje że pula pamięci masowej jest "zdegradowana" lub wolumin "uległ awarii". Może być spowodowane awarią dysku, ale też błędem metadanych Btrfs, awarią kontrolera lub utratą zasilania w trakcie zapisu. Nie klikaj "Napraw" w DSM przed klonowaniem.
Wyłącz NAS. Opisz konfigurację przez formularz.
Przypadkowa reinicjalizacja - "Create Volume" na istniejącej macierzy
Użytkownik lub nowy kontroler zainicjalizował nową macierz na dyskach z danymi. Dane są nadal na dyskach, ale metadane konfiguracji są częściowo lub całkowicie nadpisane. Odzysk możliwy - ale tylko jeśli nie pisano nic nowego po inicjalizacji.
Nie pisz na te dyski. Każdy nowy plik zmniejsza szanse odzysku.
Uszkodzony system plików - EXT4, XFS, Btrfs
Macierz technicznie działa (wszystkie dyski aktywne), ale wolumen nie daje się zamontować lub pliki są niedostępne. Uszkodzone metadane systemu plików - często po awarii zasilania lub błędnym fsck. Najłatwiejszy do odzysku.
Nie uruchamiaj fsck ani chkdsk na macierzy bez klonowania.
NAS i serwery

RAID 5 w Synology, QNAP i na serwerach

Każde środowisko RAID 5 ma swoją specyfikę. To co wygląda identycznie od zewnątrz ("wolumin uległ awarii") może mieć zupełnie inne przyczyny i wymagać innej procedury.

Synology DSM
SHR i RAID 5 na Btrfs
Synology SHR (Hybrid RAID) to RAID 5/6 zarządzany przez mdadm z możliwością mieszania dysków różnych pojemności. System plików to zazwyczaj Btrfs lub EXT4. Przy Btrfs awaria jest bardziej złożona - metadane mogą być częściowo uszkodzone niezależnie od stanu macierzy. W konfiguracjach z zapisywalnym SSD cache awaria pamięci podręcznej może dodatkowo skomplikować stan puli i metadanych systemu plików.
QNAP QTS
RAID 5 na EXT4 / ZFS
QNAP w klasycznym QTS najczęściej używa mdadm/LVM i EXT4, a w QuTS hero - ZFS. ZFS RAID-Z1 jest funkcjonalnym odpowiednikiem RAID 5, ale ma własną strukturę metadanych i inną procedurę odzysku niż klasyczny mdadm. Przy awarii sprawdź, czy wolumen działa w QTS, czy w QuTS hero.
LSI MegaRAID / Dell PERC
Sprzętowy kontroler RAID
Sprzętowe kontrolery przechowują konfigurację RAID w NVRAM i na dyskach. Awaria kontrolera nie oznacza utraty danych - konfiguracja jest często do odtworzenia. Najniebezpieczniejsze jest zastąpienie kontrolera innym modelem, który wymusi reinicjalizację lub synchronizację w złym kierunku.
FreeNAS / TrueNAS
ZFS RAID-Z1 / RAID-Z2
TrueNAS używa ZFS - RAID-Z1 to odpowiednik RAID 5 z atomowością zapisu (COW). Awaria jednego dysku to "DEGRADED pool". Import zdegradowanego poolu z flagą -f jest ryzykowny bez wcześniejszego klonowania dysków.
Windows Server
Storage Spaces / Software RAID
Windows Storage Spaces i stary Windows RAID 5 mają własne metadane (LDM, Storage Bus Layer). Migracja między wersjami Windowsa lub dostęp z innej maszyny może nie rozpoznać metadanych. Oprogramowanie mdadm nie odczyta Storage Spaces.
VMware / Hyper-V
Maszyny wirtualne na RAID 5
Maszyny wirtualne na RAID 5 to dwie warstwy - sam RAID i system plików VM (VMFS, NTFS). Odzysk wymaga najpierw odbudowy RAID na kopiach, potem montowania VMFS/NTFS i wyciągania VMDK. Każda warstwa może być niezależnie uszkodzona.
Jak pracujemy

Nasz proces odzysku - zawsze klony, nigdy oryginały

1
Dokumentacja konfiguracji i diagnostyka
Ocena liczby dysków, typ kontrolera (NAS / HBA / hardware RAID), logi błędów z konsoli DSM/QTS/PERC. Stan SMART każdego dysku. Identyfikacja z jakim typem awarii mamy do czynienia - logiczna, mechaniczna, konfiguracja.
2
Klonowanie każdego dysku sektor po sektorze
Każdy dysk jest klonowany sektor po sektorze w trybie bez zapisu na oryginał. Dyski ze słabymi sektorami klonowane są z wieloma przebiegami i odpowiednimi ustawieniami odczytu. Pracujemy wyłącznie na kopiach: obrazach dysków albo klonach 1:1 na innych nośnikach.
3
Naprawa dysków z awariami mechanicznymi (jeśli potrzeba)
Jeśli jeden z dysków nie odpowiada - naprawa w komorze laminarnej przed klonowaniem. Wymiana głowic, naprawa PCB. Celem jest uczynienie dysku czytelnym na tyle by dokończyć klon.
4
Rekonstrukcja RAID na kopiach
Na obrazach dysków ustalamy parametry macierzy: rozmiar bloku, kolejność dysków, offset danych i rotację parzystości. Macierz składana jest wirtualnie z kopii, bez odbudowy i bez zapisu na oryginalnych nośnikach.
5
Odczyt systemu plików i ekstrakcja danych
Po udanej rekonstrukcji - montowanie systemu plików (EXT4, XFS, Btrfs, NTFS, VMFS). Wyciąganie danych do miejsca docelowego. Przy uszkodzonych metadanych systemu plików - dodatkowa praca na poziomie struktury katalogów i inode.
6
Raport i akceptacja przez klienta
Dostajesz listę odzyskanych plików i folderów do weryfikacji przed płatnością za odzysk. Możesz zapytać o konkretne pliki. Rozliczenie następuje po akceptacji wyniku.
Zanim wyślesz dyski

Jak przygotować dyski RAID 5 do diagnozy

Im więcej informacji podasz przy wycenie, tym szybciej dostaniesz ocenę i orientacyjną cenę. Przygotuj:

  • Liczba dysków w macierzy i ich pojemności (np. 4 x 4 TB)
  • Model NAS lub serwera / typ kontrolera (np. Synology DS920+, LSI 9271)
  • Kolejność dysków w kieszeniach - ponumeruj je i zapisz przed wyjęciem
  • Komunikat z panelu DSM / QTS / iDRAC - zrzut ekranu jeśli możliwy
  • Informacja czy był robiony rebuild i czy się zakończył
  • Informacja czy dyski były przekładane, inicjalizowane lub formatowane
  • System plików (EXT4, Btrfs, XFS, NTFS) - widoczny w panelu NAS
Dyski wyślij osobno zapakowane w antystatyczne torby, każdy w sztywnym pudełku z wypełnieniem. Opisz je markerem zgodnie z kolejnością w kieszeniach.
Koszty

Ile kosztuje odzysk z RAID 5

Cena liczona jest za każdy dysk w macierzy, plus koszt rekonstrukcji i odczytu systemu plików. Wstępna ocena po opisie sprawy jest bezpłatna. Diagnoza laboratoryjna kosztuje 250 zł i jest wliczana w cenę odzysku, jeśli zlecasz realizację.

Typ awariiCena za dyskPrzykład 4 dyski
Logiczny - uszkodzony system plików, utrata konfiguracji, zdegradowana pula z czytelnymi dyskami od 600 zł od 2 400 zł
Złożony - awaria dysków, nieudana odbudowa, uszkodzone metadane Btrfs/ZFS od 850 zł od 3 400 zł
Z naprawą mechaniczną dysku (głowice, PCB) - doliczane do kosztu za dysk +800-2 500 zł zależnie od modelu
Najczęstsze pytania

FAQ - RAID 5

Nie. Rebuild jest normalną funkcją RAID i ma sens, gdy masz aktualną kopię danych albo dane na macierzy nie są krytyczne. Problem zaczyna się wtedy, gdy odbudowa jest uruchamiana jako pierwsza próba ratowania jedynej kopii danych. W takim przypadku bezpieczniej najpierw zobrazować wszystkie dyski 1:1, a dopiero potem składać macierz z kopii.
Tak, w wielu przypadkach. Nieudana odbudowa to jeden z trudniejszych scenariuszy, bo nowy dysk może zawierać częściowo odbudowany i niespójny obraz danych. Szanse zależą od tego, jak daleko zaszła odbudowa, które dyski brały w niej udział i w jakim stanie są oryginalne nośniki. Kluczowe jest, żeby nie uruchamiać odbudowy ponownie - najpierw trzeba wykonać kopie posektorowe dysków.
RAID 5 toleruje awarię jednego dysku. Gdy padają dwa - tablica jest zdegradowana poza możliwości normalnego odczytu. Odzysk jest możliwy jeśli oba dyski są przynajmniej częściowo czytelne - wtedy pracujemy na kopiach i rekonstruujemy to co jest do odczytania. Szanse zależą od stanu dysków i tego czy był wykonywany rebuild po awarii pierwszego.
Wyłącz NAS natychmiast. Nie klikaj "Napraw" w DSM. "Wolumin uległ awarii" może oznaczać awarię dysku, uszkodzone metadane Btrfs lub problem z pamięcią podręczną SSD - każda z tych przyczyn wymaga innej procedury. Opisz konfigurację (ile dysków, SHR czy RAID 5, czy jest NVMe cache) przez formularz - ocenię co się stało.
Odzysk logiczny z RAID 5 z czytelnymi dyskami: 2-4 tygodnie. Odzysk po nieudanej odbudowie lub z uszkodzonymi metadanymi Btrfs: 3-6 tygodni. Jeśli jeden dysk wymaga naprawy mechanicznej - dodatkowe 2-4 tygodnie zależnie od dostępności donora. Dostępna opcja ekspresowa (+1000 zł).
Tak - wystarczą same dyski. Zapakuj każdy dysk osobno w antystatyczną torbę, potem w sztywne pudełko z wypełnieniem. Opisz kolejność dysków (Dysk 1, Dysk 2...) - to ważne przy rekonstrukcji RAID. Instrukcję pakowania dostajesz przy wycenie.
Tak, ale potrzebujesz hasła lub klucza szyfrowania. Bez klucza odzysk danych użytkownika jest niemożliwy niezależnie od laboratorium. Odzysk samej struktury RAID (bez odszyfrowania) jest możliwy i może być potrzebny np. do przeniesienia na nową macierz.
Tak. Maszyny wirtualne na RAID 5 to dwie warstwy: odbudowa macierzy, potem odczyt VMFS/NTFS i wyciągnięcie VMDK. Obsługuję ESXi, Hyper-V i Windows Storage Spaces. Podaj przy wycenie typ hyperwizora i system plików - to przyspieszy wycenę.
Synology SHR (Hybrid RAID) to wariant RAID zarządzany przez mdadm, który pozwala mieszać dyski różnych pojemności. SHR-1 przy jednym dysku tolerancji zachowuje się podobnie do RAID 5 przy dyskach tej samej pojemności. SHR-2 to odpowiednik RAID 6. W praktyce odzysk polega na analizie członków mdadm, LVM i systemu plików, niezależnie od nazwy widocznej w DSM.

Macierz RAID 5 nie działa? Opisz konfigurację.

Ile dysków, jaki NAS lub serwer, co pokazuje DSM / QTS / iDRAC. Na podstawie opisu powiem co się stało i czy odzysk jest możliwy - zazwyczaj tego samego dnia.

Zadzwoń Wyślij nośnik