Dane: sprawy do uporządkowania. Propozycja podejścia

Rozważ zwirtualizowanie pamięci masowych

W 2009 r. SearchStorage.com przeprowadziło ankietę, z której wynika, że 54% badanych firm amerykańskich zdecydowało się zwirtualizować swoje zasoby dyskowe. Nie jest to jeszcze technologia szeroko rozpowszechniona.

Wirtualizacja pamięci masowych to logiczne powiązanie wielu macierzy dyskowych w przestrzeń dyskową widzianą przez systemy jako jeden wspólny obszar pamięci. W takim zwirtualizowanym obszarze pojęcie "dysk odrywa się" od swojego fizycznego znaczenia i staje się pojęciem wirtualnym. Zapis na wskazanym "dysku wirtualnym" w istocie będzie rozproszony po wszystkich albo przynajmniej wielu fizycznych dyskach macierzy.

Zobacz również:

  • Rząd Ghany pracuje nad regulacjami dotyczącymi AI
  • 9 cech wielkich liderów IT

Dzięki wirtualizacji macierzy dyskowych można osiągnąć wiele korzyści:

Po pierwsze upraszcza się administracja złożonym heterogenicznym środowiskiem macierzy dyskowych. Administrator widzi wszystkie poddane wirtualizacji urządzenia przechowujące dane i zarządzane dotąd oddzielnie jako jedną wspólną przestrzeń danych zarządzaną w jednym miejscu. Wiele operacji jest przez to uproszczonych. Dodatkowo systemy zarządzania zwirtualizowanymi pamięciami często na podstawie podanych przez administratora ogólnych wymagań potrafią same zdecydować, jakie obszary fizyczne, jak wydajne dyski należy udostępnić nowej aplikacji. Ręczne manipulowanie tymi parametrami przez administratora jest zwykle mniej efektywne i obarczone ryzykiem. Uproszczone jest migrowanie danych, a to czynność, którą administrator wykonuje często, żonglując danymi pomiędzy dyskami i macierzami dla osiągnięcia właściwego obciążenia i optymalnej wydajności systemu. Zdaniem Enterprise Storage Management jest to główne zajęcie administratora systemów danych. W zwirtualizowanym środowisku taka operacja może być wykonana bez przerywania pracy.

Po drugie zmniejsza się zapotrzebowanie na dodatkową przestrzeń dyskową. W rozwiązaniach tradycyjnych każdy serwer ma udostępniony określony zasób pamięci. Zwykle dla bezpieczeństwa przydziela mu się jej więcej, niż potrzeba, jednak to powiększa obszary przestrzeni niedostępnej dla innych systemów. Oczywiście w przestrzeniach zwirtualizowanych ten problem nie istnieje. Szacuje się, że oszczędności mogą sięgnąć nawet 25% przestrzeni dyskowej.

Po trzecie dzięki oferowanemu przez systemy zarządzania zwirtualizowanym środowiskiem inteligentnemu "rozumieniu" osiągów technicznych starszych nieco urządzeń możliwe jest wydłużenie ich czasu życia i zmniejszenie kosztów ogólnych infrastruktury.

Po czwarte wreszcie wirtualizacja pamięci masowych w heterogenicznym środowisku różnych producentów ułatwia wdrożenie systemu wielowarstwowego pamięci masowych.

Zanim podjęta zostanie decyzja o wdrożeniu, warto przyjrzeć się dokładniej oferowanemu rozwiązaniu. Należy przyjrzeć się warstwie technicznej - czy wirtualizacja jest realizowana na poziomie zewnętrznego systemu, oprogramowania switcha, czy może kontrolera macierzy. Każde z tych rozwiązań wpływa na szybkość, wydajność i bezpieczeństwo przetwarzania danych. Warto też spojrzeć na metody zabezpieczenia krytycznych dla systemu tzw. metadanych przechowujących informację o fizycznym rozlokowaniu danych, sposobie realizacji backupu, który może się wydłużyć, wydajności systemu - czyli parametrom zapisu i odczytu na zwirtualizowanej przestrzeni. Dobrze jest porównać możliwości wirtualizacji urządzeń różnych producentów z wirtualizacją maszyn w środowisku homogenicznym - maszyn jednego producenta. Należy mieć na uwadze, że migracja do zwirtualizowanego heterogenicznego środowiska jest zawsze obarczona ryzykiem, proces powinien być więc kierowany przez doświadczonych konsultantów. Wirtualizację pamięci masowych często łączy się z wprowadzeniem dynamicznej alokacji pamięci. Badania firmy 3PAR pokazały, że wśród organizacji, które zdecydowały się na takie przedsięwzięcie, 77% uzyskało ponad 100-proc. realny wzrost pojemności SAN, a w 25% firm wzrost ten wyniósł ponad 500%.

Zastosuj deduplikację danych

Jest to rodzaj kompresji danych, w którym powtarzający się blok danych jest programowo zapisywany na nośnikach tylko raz, a do jego następnych wystąpień odwołują się jedynie wskaźniki. To pozwala zmniejszyć zajętość pamięci dla potrzeb składowania niektórych typów danych od 2 do 50 razy. Niektóre firmy twierdzą, że wdrożenie deduplikacji pozwoliło im zmniejszyć ogólne potrzeby dyskowe o blisko 80%.

Ale ostrożnie. Deduplikacja nie zawsze jest pożądana. Działa skutecznie na danych ustrukturyzowanych, typu bazy danych, na szczególnym rodzaju danych, w których pliki są lub mogą być zapisywane wielokrotnie, np. na zasobach poczty elektronicznej, obrazach wirtualnych maszyn, na regularnie tworzonych backupach, które często zawierają te same dane. Jednak nie działa na plikach szyfrowanych. W zasadzie w plikach szyfrowanych nie występują powtarzające się bloki danych. Deduplikacja może opóźniać zapis na dysku przez konieczność indeksacji bardzo wielu danych. Choć zazwyczaj mniejsza liczba danych wymaga mniej czasu na backup, to właśnie obszerna indeksacja może spowodować wydłużenie procesu backupu, a przez to zmniejszenie krytycznego w wielu instytucjach okna czasowego dla tej operacji. Skoro w tego typu rozwiązaniach zdarza się, że występujący wiele razy blok danych zajmie jedno fizyczne miejsce na dysku, istotne jest, by system był niezawodny i nie było w nim tzw. "single point of failure". Oprogramowania wspierające deduplikacje oferowane przez różnych producentów istotnie się różnią, zatem decyzja o przyjęciu rozwiązania powinna być gruntownie przedyskutowana z dostawcami.

Zaplanuj hierarchiczne zarządzanie pamięcią (HSM - Hierarchical Storage Management)

Hierarchiczna organizacja pamięci, zwana również organizacją wielowarstwową pamięci, to przyporządkowywanie różnym nośnikom pamięci różnego typu danych w taki sposób, by dane o najwyższych wymogach co do bezpieczeństwa, czasu, częstości dostępu czy innych mogły być składowane na systemach pamięci o najwyższych parametrach technicznych. Projektując HSM, przyjmuje się najczęściej trzy, cztery, pięć, a nawet i więcej warstw pamięci. Oto trzy często spotykane warstwy:

Warstwa pierwsza (Tier 1) przechowuje zwykle dane systemów czasu rzeczywistego, tzw. mission critical, o najwyższej wartości dla przedsiębiorstwa, dla których czas RTO jest bliski 0. Urządzenia warstwy pierwszej to zwykle macierze dyskowe z najwyższej półki (Symmetrix, HDS, IBM, Compellent), oferujące najbardziej zaawansowane możliwości techniczne, w tym często synchroniczne i asynchroniczne replikacje, snapshoty, wielkie prędkości odczytu i zapisu oraz bezpieczeństwo wyrażone również w najwyższych i najbardziej "agresywnych" poziomach SLA. Koszt i utrzymanie pamięci tej warstwy są wysokie.

Warstwa druga (Tier 2) przechowuje dane o nieco mniejszym znaczeniu, w tym bazy danych o znaczeniu mniej krytycznym, z czasem RTO wyrażonym w godzinach, często historyczne, choć nadal przez biznes wymagane, a także dane nie wymagające tak wyśrubowanych parametrów dla czasów dostępu czy bezpieczeństwa. Koszt składowania 1GB jest zwykle o połowę mniejszy niż w warstwie pierwszej.

Warstwa trzecia (Tier 3) przechowuje archiwalne najczęściej dane na dużych i tanich dyskach, a bywa, że i na dyskach optycznych lub taśmach.

Wprowadzenie hierarchicznej organizacji pamięci jest procesem złożonymi. Dla każdej aplikacji, której dane składowane są na urządzeniach pamięci masowych, konieczne jest w uzgodnieniu z biznesem określenie rozsądnych wymagań co do wielkości obszaru pamięci, czasu dostępu, bezpieczeństwa, czasu RTO, poziomu serwisu itd. Uzgodnione wymogi trzeba skonfrontować z podstawowymi parametrami technicznymi urządzeń, takimi jak: poziom RAID, całkowity i przydzielony cashe, czas dostępu i wielkości dysków, replikacje synchroniczna i asynchroniczna, oraz odpowiednio zaprojektować warstwy pamięci. Uzgodnienia warto dokładnie udokumentować ze wskazaniem korzyści przyjętego rozwiązania, w tym osiągniętą redukcję kosztów dla mniej wymagających danych, ale też i potencjalne rodzaje ryzyka ponoszone przy zastosowaniu urządzeń bardziej zawodnych.

Niektóre firmy produkujące systemy pamięci masowej wprowadziły lub jeszcze w tym roku wprowadzą do swojej oferty oprogramowanie pozwalające na automatyczne zarządzanie danymi rozlokowanymi w kolejnych warstwach pamięci. Wszystkie różnią się nieco między sobą. Jednak myśl przewodnia jest taka, że to określone algorytmy (np. zmierzona częstotliwość dostępu do danych) decydują, czy dane mają być umieszczane w warstwie najwyższej czy w niższych.

Według niektórych źródeł wprowadzenie hierarchicznego zarządzania pamięcią pozwoli w niedługim czasie osiągnąć do 100% ROI.


TOP 200