Szerver hibaelhárítása Servermeile Technet
A hibaelhárítás, azaz a kiszolgáló területén lévő problémák megoldása megfelelő know-how nélkül hosszúnak és összetettnek bizonyulhat. Ezért ebben a cikkben a leggyakoribb kihívásokkal foglalkozunk, és elmagyarázzuk, hogyan állíthatja vissza szerverét feltételezett hiba esetén. Ha nincs ideje vagy túl tartós a probléma, örömmel támogatjuk Önt, mint illetékes rendszerházi partnert személyesen telefonon vagy a helyszínen.
meghatározatlan/ismeretlen problémák
Ha egy szerver nem azt teszi, amire kéne, akkor az első dolog, hogy megtudja, hol található az állítólagos hiba. A szervergyártásban szerzett tapasztalataink azt mutatják, hogy csak ritkán van szó „valódi” szerverhibákról, azaz hibás szerver hardverösszetevőkről. Sokkal gyakrabban látunk konfigurációs hibákat vagy egyszerűen „más, nem dokumentált állapotokat” a vevőink telephelyein történő megfelelő gyártásban és támogatásban, amelyek azonban nem hardverhibák. Ez utóbbi előfordulhat például elavult firmware miatt, de más oka is lehet.
Előkészítő intézkedések
Mielőtt elkezdené, készen kell állnia a kiszolgáló kézikönyvére - szüksége lesz rá. A professzionális eszközök sok vizsga szempontjából hasznosak, de egyesek számára elengedhetetlenek. Az állítólagos hiba diagnosztizálásához és orvoslásához nem feltétlenül szükséges kinyitni a szerver házát - de ha ez szükségessé válik, feltétlenül földelő karszalagot kell viselni annak érdekében, hogy ne sérüljenek az érzékeny elektronikus alkatrészek áramellátást kell biztosítani annak érdekében, hogy legalább a BMC működjön, és a szervert elérhetővé tegye az IPMI-n keresztül. Ezért a szerver házának megnyitása előtt teljesen le kell választani a kérdéses kiszolgálót az áramellátásról és a hálózatról.
Menjen strukturált módon, és vegye figyelembe a haladást - ha egyszerûen hibázik, az kevés munkát igényel. Ha azonban az eset összetettnek bizonyul, a jegyzetei nagyon hasznosak lesznek. Elakadt egy ponton, és szakmai szerver tanácsra van szüksége? Örömmel támogatjuk és tanácsot adunk Önnek.
Intel hibaelhárító Wizzard
Az alapvető és gyors diagnózis érdekében használhatja az Intel által biztosított szerverhiba-elhárító varázslót is. Az útmutató mellett elengedhetetlen, hogy olvassa el a kiszolgáló alaplapjának kézikönyvét, mivel a varázsló nem fedte le az egyes Intel szerver alaplapok minden részletét.
A szervert nem lehet bekapcsolni/izzó LED-ek nem láthatók
Először ellenőrizze az alap tápegységet - a tápkábel egyáltalán van-e vagy elegendő áram áll rendelkezésre (a szerver esetleg hibás UPS-hez van csatlakoztatva)? Ha redundáns tápegységről van szó, akkor ellenőrizni kell a két tápegységet. Meg kell jegyezni, hogy redundáns tápegységek esetén az áramelosztó tábla is hibás lehet.
Ideális esetben van egy tesztkészüléke a szerver tápegységeihez, amellyel most ellenőrizheti a feszültségértékeket. Csak ezután ellenőrizze, hogy a tápegység megfelelően van-e csatlakoztatva a kiszolgáló alaplapjához. Jegyzet: A redundáns tápegység eltávolítása vagy behelyezése előtt feltétlenül húzza ki a tápkábelt !
A szerver bekapcsolható, de nem indul el, vagy a monitor képe fekete marad/legalább egy LED látható
Amint a kiszolgáló alaplapja áramellátást kap, először a Baseband Management Controller (BMC) indul, amelyet általában a kék LED-ek ismerhetnek fel. Ez és egyetlen zöld LED jelzi, hogy a kiszolgáló alaplapján mindig van-e feszültség.
Ha idáig minden rendben van, a hibáknak számos oka lehet - a szerver professzionális diagnosztikai eszközei segítenek a hiba azonosításában. Minden kiszolgálótáblának legalább négy narancssárga és négy zöld LED-je van, amelyek segítségével meghatározható az indítási folyamat állapota és a lehetséges hibák egész sora. A következő kép az Intel S2600WTT számos diagnosztikai LED-jét mutatja, mivel például beépítve van az R2308WTTYS-be (Intel Grantley platform E5-2600v3 processzorokhoz).

Az alaplap kézikönyvével segíthet az állapot- és hibakódok megfejtésében. A tapasztalatok alapján javasoljuk a diagnózis elvégzését további kártyák behelyezése nélkül. Tudomásunk van olyan konstellációkról, amelyekben a rendszerindítást blokkolni tudja egy PCI-E kártya (pl. RAID vezérlő). Ha a szerver a firmware frissítése után már nem megfelelően indul, először vegye ki az összes további kártyát, majd próbálja újra.
Példa: az első indítási folyamat a sikeres firmware-frissítés után
A szerver firmware-jének frissítése összetett. A tényleges BIOS mellett gyakran számos más összetevőt is frissítenek: a BMC, az FBU és az SDR, valamint az ME. A folyamat a sikeres frissítés után csak az indítás során fejeződik be. Bizonyos körülmények között előfordulhat, hogy egy PCI-E kártya blokkolja ezt a folyamatot. Ebben az esetben távolítson el minden PCI-E kártyát, hajtsa végre újra a frissítést, és csak akkor telepítse újra a megfelelő kártyákat, ha a szerver már egyszer sikeresen elindult a frissítés után, és a frissítési folyamat befejeződött.
A diagnosztikai LED-ek megtekintése mellett érdemes elérni a BMC-t is. Ha ezt korábban távfelügyeletre konfigurálták, akkor az IPMI segítségével vizuálisan ellenőrizheti az állapotüzenetek egész sorozatát, vagy bejegyzéssel áttekintheti a rendszer naplójának bejegyzését. Tapasztalataink szerint az összes gyakori hibaforrás diagnosztizálható.

Gyakori hibák
Háttértár
A nagyon megbízható szerver-összetevőknél az alapvető összetevők valódi hardverbeli hiányosságai nagyon ritkán fordulnak elő. Az optimális kompatibilitás biztosításában az Intelre (kiszolgáló kártya, CPU, szerver hálózati kártya, RAID vezérlő) is támaszkodunk.
Általában a merevlemezek - a terheléstől függően - a harmadik évtől kezdve egyre gyakrabban hibásodnak meg. A tömeges tárolást ezért - függetlenül attól, hogy RAID-en keresztül vagy fájlrendszer szinten - legalább redundanciával kell megtervezni. A merevlemez meghibásodása könnyen felismerhető az Intel RAID Web Console 2 segítségével, de a szerver házán található LED-del is.
véletlen hozzáférésű memória
A működés harmadik évétől kezdődően - ismét a terheléstől függően - meghibásodhat a RAM-sáv. Ezért általában javasoljuk a REG ECC RAM használatát a szokásos 3-5 évig, 64 GB feletti konfigurációtól kezdve, és ne méretezzük túl a memóriát. A szerver képes megbirkózni a REG ECC RAM-sáv meghibásodásával működés közben; a kiszolgálót csak későbbi cseréhez kell leállítani. A meghibásodást legalább a LOG segítségével vizualizálják, a szerver alaplapjától függően a LED-ek is.
Egyéb hibák
Példa: meghajtók
Számos olyan ritkán előforduló hiba is előfordul, amelyeket nem olyan könnyű diagnosztizálni - például egy DVD-meghajtó, amely behelyezett DVD vagy CD nélkül is hibás elektronika miatt "bombázta" a SATA interfészt jelekkel.
Gyakori konfigurációs "hibák"
Példa: A RAID BIOS nem jelenik meg
Nyissa meg a kiszolgáló alaplapjának BIOS-ját, és deaktiválja a „Quiet Boot” funkciót a főmenüben. Szintén állítsa a rendszerindítási módot „Legacy” -re a „(Advanced) Boot Options” menüben. A beállítások mentése és újraindítás után a RAID BIOS újra megjelenik indításkor. Ne felejtse el visszaállítani az indítási módot UEFI-re, a RAID konfigurációjától és az operációs rendszer választásától függően.
Példa: A Windows Server nem telepíthető
Nyissa meg a BIOS-t, és ellenőrizze, hogy a merevlemez vagy a RAID-kötet megfelelően van-e megadva a rendszerindító-kezelőben. Telepítse a RAID-vezérlő legújabb illesztőprogramjait, ha nem jelenik meg RAID-kötet.
További információk/források