Problémy s monitorováním IT infrastruktury

Článek přečtěte do 4 min.

Nevidím velký obrázek
Ignorování vašich protokolů
Upozornění, která Cry Wolf
Rušivé, tiché monitorovací systémy
Pochopení „Proč“
Podobné příspěvky

Na trh neustále přicházejí nové technologie, které je třeba sledovat; organizace se zvětšují i zmenšují. Infrastruktura je celkově stále složitější. S tolika faktory nemůže být pro systémové administrátory snadné vidět každou výzvu jako položku, kterou je možné rychle odškrtnout ze seznamu a jít dál.

Nevidím velký obrázek

Jednou z největších chyb, kterou lidé dělají, je, že monitorování IT infrastruktury používají pouze k zodpovězení otázky: Funguje moje zařízení? Aby se organizace vyhnuly tomuto úskalí, měly by využívat monitorování IT k informování o svých zásadních obchodních rozhodnutích. Monitoring poskytuje přehledy a data, která mohou využít k rozhodování o škálování organizace nahoru nebo dolů, strategických cílech souvisejících s akvizicemi a jak nejlépe splnit očekávání zákazníků.

Řekněme například, že máte 10 serverů na serverovém stojanu, které načítají a provozují váš web. Váš monitorovací software vám sdělí, že servery pravidelně dosahují kapacity. Když se podíváte na celkový obrázek, můžete vidět, že se to děje, protože vaše webové stránky mají větší návštěvnost než dříve, a s těmito informacemi můžete učinit informovanější rozhodnutí o přidání dalších počítačových zdrojů, abyste zajistili správné fungování webových stránek. Možná je třeba v budoucnu udělat důvod pro další rozšiřování hardwaru nebo jiné infrastruktury na základě informací shromážděných z monitorování .

Ignorování vašich protokolů

Další častou chybou, kterou lidé dělají, je přehlížení důležitosti monitorování dat protokolů. Platforma pro agregaci protokolů může shromažďovat a pomáhat vám analyzovat data protokolů, což je důležité pro výzvy, jako je identifikace bezpečnostních rizik, odstraňování problémů a dodržování předpisů. Shromažďování protokolových dat je jako pojistka: možná je nevyužijete při své každodenní práci, ale když se vyskytne významné riziko nebo problém, může to být vaše záchrana – zvláště když průměrné náklady na únik dat mohou být stovky tisíc dolarů!

Pokud vaše infrastruktura havaruje, data z událostí, které vedly k havárii, mohou pomoci identifikovat problém mnohem rychleji a přesněji. Bez dat protokolu začínají správci systému při pokusu o identifikaci příčiny problému s nedostatkem. V Nagios tento scénář viděli u klientů mnohokrát.

Zákazník se o Nagios Log Server doslechl a během víkendu jej implementoval. V pondělí ráno viděl 15 000 neúspěšných pokusů o heslo z neznámého místa. Kdyby nezačal sledovat své záznamy, neměl by tušení, že se to děje! Kdyby byl jeden z těch pokusů úspěšný, mohl přijít o firemní tajemství, zákaznická data a potenciálně i celé své živobytí.

Upozornění, která Cry Wolf

Výstražná slepota nastane, když správci nebo uživatelé dostanou tolik výstrah ze softwaru pro monitorování IT infrastruktury, že je začnou ignorovat. Je to případ, kdy váš monitorovací software tolikrát křičí vlka, že ho ignorujete – i když je vlk u dveří.

Místo toho vám váš dodavatel monitorování IT infrastruktury může pomoci provést nastavení prahových hodnot oznámení, které upřednostňují to, co je pro vás důležité. Váš software může například spustit intervaly opětovné kontroly, když je dosaženo prahové hodnoty, abyste se ujistili, že problém je opakující se problém a problém, který vyžaduje vaši pozornost, nikoli jen výkyv způsobený stažením aplikace nebo momentální špičkou. Díky intervalům opětovné kontroly budete pouze informováni o problémech , které probíhají, a po uplynutí stanovené doby se samy nevyřeší.

Dalším způsobem, jak snížit lavinu výstrah, je vytvořit skript nebo příkaz, který automaticky reaguje, když zařízení nefunguje správně. Pokud například zamrzne web vaší organizace, váš software pro monitorování IT infrastruktury vám nemusí hned posílat upozornění. První věc, kterou udělá, je spuštění skriptu, který zavolá na tento server a řekne mu, aby se restartoval. Jakmile je restart dokončen, software poté zkontroluje, zda restartování problém vyřešilo. Pokud ano, skvělé! Nedostanete upozornění. Pokud však restart problém nevyřeší, vydá upozornění, aby bylo možné problém vyřešit. Řešení problémů s automatizací namísto lidské účasti šetří čas všem a zvyšuje rychlost a produktivitu celé vaší IT infrastruktury.

Rušivé, tiché monitorovací systémy

Máte-li samostatná řešení pro monitorování databází, monitorování serverů a monitorování webu, máte co do činění se spoustou různého softwaru, obrazovek a dat, abyste správně porozuměli své IT infrastruktuře. S tolika umlčenými vstupy můžete být odvedeni od zobrazení důležitých informací – nebo přinejmenším nebudete schopni shromáždit a analyzovat informace způsobem, který vám pomůže lépe se rozhodovat o vaší IT infrastruktuře.

Zvažte použití monitorovacího softwaru, který vám poskytne jasný přehled o celé vaší infrastruktuře na jednom centralizovaném místě, jako je Nagios Fusion. Měli byste být schopni psát své vlastní skripty a připojit se k čemukoli pomocí běžného jazyka zařízení nebo aplikace, pokud to monitorovací řešení již nepodporuje. Flexibilní řešení pro monitorování IT je obzvláště důležité, protože trh internetu věcí roste a zařízení se diverzifikují, protože toto řešení bude schopno monitorovat vše, co si na palubu přinesete. Pokud řešení pro monitorování IT nedokáže monitorovat vše, co potřebujete, na jednom místě, riskujete, že se budete spoléhat na interní monitorovací řešení dodavatele, které vytváří další úložiště dat.

Žádné monitorovací řešení nedokáže předvídat vše, co se může v budoucnu připojit, ale pokud vám dává svobodu připojit cokoli sami, můžete si být jisti, že infrastruktura IT je zaručena pro budoucnost, jak se vaše organizace vyvíjí.

Pochopení „Proč“

Když se vypořádáte s těmito běžnými úskalími, můžete lépe porozumět „proč“ za fungováním vaší IT infrastruktury: proč jsou některé prahové hodnoty nedodržovány, proč webové stránky zamrzají, proč zákaznická zkušenost není na stejné úrovni a tak dále. Spíše než řešit každý požár, jak přichází, můžete některé z těchto požárů uhasit u zdroje a znovu zaměřit svůj talent na jiné projekty a cíle.

Jednou z integrovaných zpráv XI v Enterprise Edition je zpráva C apacity Planning R, která pomocí řady extrapolačních metod bere historická data o výkonu k předpovědi , kdy zařízení dosáhnou určité prahové hodnoty. Zprávu o plánování kapacity můžete například použít k předpovědi, kdy se zaplní pevný disk serveru. Tím, že to předvídáte, můžete snížit množství prostojů, které jsou důsledkem selhání zařízení, když dosáhnou kritické úrovně.

Zdroj: Netwrix

Problémy s monitorováním IT infrastruktury

Nevidím velký obrázek

Ignorování vašich protokolů

Upozornění, která Cry Wolf

Rušivé, tiché monitorovací systémy

Pochopení „Proč“

Sdílejte tento článek, vyberte si platformu!

Podobné příspěvky

Podvody s ukončením pracovního poměru: Nenaleťte na falešné zrušení práce a smlouvy

Náhled přepracované konzoly Oracle Cloud Console

Březnová aktualizace zabezpečení

Přineste si vlastní ASN na OCI

Zvládnutí zpracování chyb v PowerShellu pomocí Try-Catch-Finalally