Pemeliharaan Server Yang Praktis Pada Data Center Modern

tips pemeliharaan server di data centertips pemeliharaan server di data center

Pemeliharaan server mencegah masalah besar dan menjaga agar segala sesuatunya tetap berjalan dengan baik. Luangkan waktu untuk pemeriksaan sederhana ini pada perangkat keras server dan perangkat lunak di data center anda.

Server data center hanya mesin yang canggih. Seperti mesin lainnya, mereka memerlukan perawatan rutin untuk beroperasi pada kinerja puncak. Prosedur perawatan sederhana mengurangi panggilan layanan yang serius dan memperpanjang masa kerja server.

Daftar Periksa Pemeliharaan Server di Data Center

Bahkan dengan kinerja dan fitur redundansi dari server modern, konsolidasi beban kerja yang meningkat dan harapan keandalan dapat membawa kelancaran pada operasional anda. Daftar periksa pemeliharaan server harus mencakup elemen fisik dan juga konfigurasi sistem yang kritis.

Disiplin rutinitas

Administrator server terlalu sering mengabaikan daftar perencanaan pemeliharaan. Jangan menunggu sampai ada kegagalan yang sebenarnya. Sisihkan waktu untuk pemeliharaan server rutin sesuai prosedur.

Frekuensi pemeliharaan server tergantung pada umur peralatan, lingkungan data center, volume server yang memerlukan perawatan dan faktor lainnya.

Misalnya, peralatan yang lebih tua yang berada di rak server memerlukan pemeriksaan yang lebih sering daripada server baru yang dipasang di data center yang disaring dengan HEPA. Organisasi dapat mendasarkan jadwal perawatan rutin pada rutinitas penyedia vendor atau pihak ketiga. Jika kontrak layanan vendor meminta pemeriksaan sistem setiap empat atau enam bulan, ikuti jadwal tersebut.

Persiapan adalah segalanya

Miliki rencana sebelum anda menangani item pada daftar periksa pemeliharaan server. Ini termasuk memeriksa log sistem untuk setiap kesalahan atau kejadian yang memerlukan perhatian lebih langsung. Misalnya, jika log sistem menunjukkan kesalahan dengan modul memori tertentu, anda harus memesan DIMM pengganti dan memiliki stok untuk pemasangan. Begitu pula jika ada firmware, sistem operasi atau agen patch / update yang ada, test dan vet patches terlebih dahulu sebelum melakukan pemeliharaan.

Miliki rencana yang jelas untuk mengambil sistem offline dan mengembalikannya ke layanan nanti. Sebelum munculnya virtualisasi, server dan aplikasi residennya memerlukan waktu henti untuk mengakomodasi jendela pemeliharaan (maintenance windows). Hal ini sering memaksa personil IT melakukan perawatan di malam hari atau di akhir pekan.

Server virtual memungkinkan migrasi beban kerja daripada downtime, sehingga anda dapat memigrasikan aplikasi ke server lain dan mereka akan tetap ada setiap saat pemeliharaan server terjadi pada sistem host yang mendasarinya. Sebelum perawatan, kita harustahu di mana VM harus pergi, bermigrasi VM ke sistem yang dipilih dan memverifikasi setiap beban kerja sebelum menurunkan server untuk perawatan.

Pada titik ini, anda biasanya dapat mematikan server dan menghapusnya dari rak atau enclosure lainnya.

Pastikan server bisa bernafas

Begitu server sedang offline, periksa secara visual jalur aliran udara eksternal dan internal. Keluarkan akumulasi debu dan kotoran lainnya yang bisa menghalangi udara dingin.

Mulailah dengan saluran masuk dan outlet udara eksterior, kemudian masuk ke sasis sistem, lihat pendingin CPU dan kipas rakitan, modul memori dan semua kipas pendingin dan jalur saluran udara. Keluarkan debu atau kotoran pada ruang server dengan alat tekanan udara yang bersih dan kering. Jangan membersihkan server di rak, tarik keluar terlebih dahulu.

Membersihkan debu adalah proses jaman dulu, tapi itu tidak berarti itu sudah usang. Debu adalah isolator termal, sehingga harus dibersihkan. Saat ini, skema pendinginan alternatif dan rekomendasi ASHRAE telah meningkatkan suhu operasi data center. Debu dan hambatan aliran udara lainnya akan menyebabkan server menggunakan lebih banyak energi, bahkan memicu kegagalan komponen yang sebetulnya dapat dihindari.

Periksa hard disk lokal

Banyak server mengandalkan hard disk internal untuk booting, startup dan penyimpanan beban kerja, data pengguna, dan fungsi lainnya. Masalah pada media disk dapat mengganggu kinerja beban kerja dan stabilitas secara serius, sering menyebabkan kegagalan hard disk.

Media magnetik tidak sempurna. Masalah umum meliputi bad sector dan fragmentasi. RAID berjalan jauh untuk melestarikan integritas data setelah kesalahan penyimpanan, namun lebih kecil, server rak 1U tidak menyediakan cukup ruang fisik untuk menggunakan array disk. Gunakan alat utilitas seperti CHKDSK (Check Disk) untuk memverifikasi integritas disk dan mencoba memulihkan bad sector di dalamnya. Versi update Windows Server 2012 dari CHKDSK dapat cepat menganalisis dan memperbaiki masalah disk dalam struktur sistem berkas.

Fragmentasi disk tidak akan hilang begitu saja, selama tabel alokasi dan berkas alokasi NTFS atau FAT, sistem file menggunakan ruang disk oleh cluster yang tersedia pertama kali. Fragmentasi dapat memperlambat disk server dan menyebabkan kegagalan. Sebuah utilitas seperti Optimize-Volume di bawah Windows Server 2012 dapat mengatur setiap cluster file secara kontinu pada disk.

Baca event log

Server mencatat banyak informasi di log peristiwa, terutama rincian tentang masalah. Tidak ada daftar periksa pemeliharaan server yang lengkap tanpa peninjauan ulang terhadap sistem, malware, dan log peristiwa lainnya. Tentu, masalah sistem kritis akan lebih diperhatikan oleh administrator IT dan teknisi, tapi banyak sekali masalah kecil yang bisa menandakan masalah kronis dan serius.

Saat anda berada di sana, periksa penyiapan laporan dan verifikasi penerima peringatan dan alarm yang benar. Misalnya, jika seorang teknisi meninggalkan grup server, anda harus memperbarui sistem pelaporan server. Periksa kembali metode kontak juga. Kesalahan kritis yang dilaporkan ke alamat email perusahaan teknisi mungkin sama sekali tidak memadai jika kesalahan terjadi di luar jam kerja.

Jadilah proaktif dengan data log. Ketika inspeksi log mengungkapkan masalah kronis atau berulang, penyelidikan proaktif dapat menyelesaikan masalah sebelum meningkat. Sebagai contoh, jika laporan log server dapat memulihkan kesalahan dalam modul memori, maka hal ini tidak akan memicu alarm kritis. Tapi masalah berulang kali menandakan masalah pada modul, dan staf IT dapat melakukan diagnosa yang lebih rinci untuk mengidentifikasi kegagalan yang akan datang.

Jika masalah tidak cukup parah untuk menjamin mematikan server, komputer dapat kembali beroperasi sampai perangkat keras pengganti masuk.

Luangkan waktu untuk patch dan update

Perangkat lunak server stack – BIOS, OS, hypervisors, driver, aplikasi, alat pendukung – semua harus berinteraksi dan bekerja sama. Sayangnya, kode perangkat lunak jarang bebas masalah, sehingga potongan-potongan teka-teki perangkat lunak ini sering ditambal atau diperbarui untuk memperbaiki bug, meningkatkan keamanan, memperlancar interoperabilitas dan meningkatkan kinerja.

Tidak ada perangkat lunak produksi yang bisa diupdate secara otomatis. Administrator harus menentukan apakah patch atau upgrade diperlukan, kemudian mengevaluasi dan menguji perubahan secara menyeluruh. Jika pembaruan dapat memperbaiki masalah maka cukup jangan ditambahkan dengan proses lainnya.

Pengembang perangkat lunak tidak mungkin menguji setiap kombinasi potensial perangkat keras dan perangkat lunak. Jadi, patch dan update dapat menyebabkan lebih banyak masalah daripada yang mereka perbaiki pada tumpukan server atau perangkat lunak spesifik anda. Misalnya, patch agen pemantauan dapat menyebabkan masalah kinerja dengan beban kerja yang penting karena agen baru membutuhkan bandwidth lebih banyak dari yang diharapkan.

Pergeseran ke DevOps, dengan pembaruan yang lebih kecil dan lebih sering, memperburuk potensi masalah. Anda masih perlu menguji patch atau update di lab sebelum menggelarnya. Dan selalu pastikan anda bisa membatalkan perubahan dan mengembalikan konfigurasi perangkat lunak asli jika perlu.

Verifikasi dan catat setiap perubahan

Banyak yang bisa terjadi pada server selama pemeliharaan, seperti hardware, software, perubahan konfigurasi sistem. Bila anda telah menyelesaikan daftar periksa pemeliharaan server, penting bagi staf IT untuk memverifikasi dan mencatat keadaan sistem baru. Misalnya, mengganti adaptor jaringan, menambahkan atau mengganti DIMM, memperbarui OS, dan banyak tindakan lainnya dapat mengubah konfigurasi sistem.

Organisasi yang bergantung pada alat manajemen konfigurasi sistem mungkin perlu memperbarui atau “menemukan” perubahan – mencatat perubahan tersebut ke database manajemen konfigurasi sebelum sistem diizinkan masuk kembali ke layanan.

Juga verifikasi postur keamanan sistem seperti pengaturan firewall, versi anti-malware atau pengaturan pemindaian dan deteksi intrusi / pencegahan (IDS / IPS). 

Konsultan Data Center

Dengan keahlian dan pengalaman yang terbukti, layanan konsultasi data center ini dapat membantu seluruh kebutuhan data center anda.

Pemeriksaan keamanan dapat membantu memastikan bahwa perubahan pada sistem perangkat lunak tidak akan membuka celah serangan yang mungkin telah ditutup pada konfigurasi sebelumnya.

Dan akhirnya, jangan lupa untuk mengupdate backup sistem atau disaster recovery (DR) konten setelah server kembali online. Verifikasi bahwa postur cadangan server atau frekuensi tetap tidak berubah, kecuali pengaturan yang terkait secara khusus perlu disesuaikan untuk mencerminkan peran server yang berubah.