vSAN İzleme: Sağlık, Kapasite ve Performans: HOL Notları (Modül 2)

Geçen hafta SPBM'i, policy yönetimini ve cluster'ı büyütüp küçültmeyi incelemiştim. Bu hafta Modül 2 ile devam ediyorum. Konu: vSAN ortamının sağlığını izlemek, kapasiteyi takip etmek ve performans verilerini okumak.

Bu modül biraz farklı bir yerden başlıyor. Bir şey kurup yapılandırmak yerine, kurulu ortamı "gözetlemeyi" öğreniyoruz. Kulağa pasif geliyor ama değil; hangi ekrana ne zaman bakacağını bilmek, bir sorun çıktığında saatleri kurtarabilir.

vSAN Health Check: Neden Önemli?

vSAN 6.0'dan bu yana sistemde yerleşik bir sağlık kontrol mekanizması var. Yüzden fazla hazır kontrol içeriyor. Ağ bağlantısı, donanım uyumluluğu, disk durumu, VM nesneleri, konfigürasyon tutarsızlıkları gibi başlıkları kapsıyor.

Yeni bir cluster kurduktan sonra yapılacak ilk şeylerden biri bu kontrolü çalıştırmak. Bir ağ sorununu erkenden yakalamak ile haftalar sonra performans şikayetleri gelince fark etmek arasındaki farkı bu araç belirleyebilir.

Skyline Health Üzerinden Kontrol

vSphere Client'ta şu yola gidiyoruz:

cluster-esa-01a > Monitor > vSAN > Skyline Health

Açılan ekranda üç şey görüyorsunuz:

Cluster Health Score (sayısal bir puan)
Health Score Trend (zaman serisi)
Health Findings (aktif sorunlar)

Trend görünümünde "VIEW DETAILS" diyince geçmişe de bakabiliyorsunuz; sorunun ne zaman başladığını görmek için işe yarıyor.

Kontrolleri kategoriye göre filtrelemek de mümkün. "Category" filtresinden "Network" seçince sadece ağ katmanıyla ilgili testler listeleniyor. Her testin yanındaki >> ikonuna tıklayınca sağ panelde o kontrolün ne anlama geldiği ve nasıl düzeltileceği açıklıyor. KB makalesi bağlantısı da genellikle orada.

Kasıtlı Arıza: Sistemi Test Etmek

HOL'un bu kısımda yaptığı ilginç: bir host'u kasıtlı olarak disconnect edip health check'in bunu nasıl yakaladığını gösteriyor.

esx-05a.site-a.vcf.lab üzerine sağ tık, Connection > Disconnect diyoruz. Ardından Skyline Health'e dönüp RETEST'e basıyoruz.

Birkaç saniye içinde "UNHEALTHY" bölümünde esx-05a'nın vCenter'dan koptuğuna dair uyarı çıkıyor. TROUBLESHOOT'a basınca hangi host'un sorunlu olduğu, durumu ve KB bağlantısı görünüyor.

Sonra aynı host'u yeniden connect edip RETEST yapıyoruz. Uyarı kayboluyor, health score normale dönüyor.

Bu adımın değeri şu: Sistemin gerçekten alarm üretip üretmediğini, doğru kaynağı gösterip göstermediğini ve çözüm önerisi sunup sunmadığını ellerin kirletmeden görmek.

Kapasite İzleme

Kapasite takibi için birkaç farklı giriş noktası var. En doğrudan olanı datastore görünümü.

Datastores Icon > dc-a > vsan-esa-01a_Datastore > Summary > VIEW CAPACITY

Açılan ekranda iki önemli bölüm var:

Capacity Overview: Toplam kapasite, kullanılan alan ve boş alan. Standart bir disk kullanım göstergesi.

What-if Analysis: Burası daha ilginç. Seçtiğiniz bir storage policy bazında "etkin boş alan" hesaplıyor. Thin provisioning açısından datastore'un oversubscribed olup olmadığını da gösteriyor. Yani gerçek fiziksel alan ile politika gereği ayrılması gereken alan arasındaki farkı görünür kılıyor.

Kullanım Detayı (Usage Breakdown)

"EXPAND ALL" diyince vSAN datastore üzerindeki nesne tiplerinin dökümü geliyor:

VMDK'lar (sanal diskler)
VM Home namespace'leri
Swap nesneleri
Performans servisi veritabanı
Dosya sistemi ve checksum overhead
Diğerleri (template, ISO gibi kategorize edilmemiş nesneler)

Yüzdeler anlık kullanıma göre değişiyor. Ortam henüz az doluysa overhead kalemleri orantısız büyük görünebiliyor; bu normal.

Performans İzleme

vSAN'ın yerleşik performans servisi vSAN 9 ile cluster seviyesinde otomatik olarak aktif geliyor. Bu servis her host üzerinde çalışıyor, veri topluyor ve sonuçları vSAN datastore üzerinde ayrı bir nesne olarak saklıyor.

Birkaç detay kayda değer:

Metrikler 90 gün saklanıyor.
5 dakikalık aralıklarla kaydediliyor.
Performans veritabanı vCenter'dan bağımsız bir vSAN nesnesi. vCenter erişilemez olsa bile veriler orada duruyor, ama görüntüleyemezsiniz.
Veritabanına da bir storage policy atanmış; bu nedenle "Configure > vSAN > Services > Performance Service" altında Stats DB'nin Compliant olduğunu görebilirsiniz.

Üç Seviyede Performans Görünümü

Performans verilerini üç farklı seviyede inceleyebiliyorsunuz:

Cluster Seviyesi

cluster-esa-01a > Monitor > vSAN > Performance

Burada VM, Backend, File Share ve IOInsight sekmelerini göreceksiniz. Önemli bir ayrım var:

"Front-end" trafik: VM'lerin doğrudan oluşturduğu okuma/yazma trafiği.
"Back-end" trafik: Replika ve senkronizasyon trafiği; vSAN VMkernel arayüzü üzerinden akıyor. Bu iki trafiği ayrı izlemek, bir yavaşlamanın VM'den mi yoksa vSAN'ın arka plan operasyonlarından mı kaynaklandığını anlamak için gerekli.

Host Seviyesi

esx-05a.site-a.vcf.lab > Monitor > vSAN > Performance

Cluster görünümüne kıyasla daha fazla sekme var: VM, Backend, Disks, Physical Adapters, Host Network ve I/O Insight. Bir performans sorununun hangi katmandan geldiğini daraltmak için bu seviye daha kullanışlı.

VM Seviyesi

acct-app-01 > Monitor > vSAN > Performance

Sanal disk bazında IOPS, throughput ve latency. Belirli bir VM'den şikayet geldiğinde buradan başlamak doğru.

VCF Operations ile Çok Cluster İzleme

Şimdiye kadar gördüklerimiz vCenter içindeydi ve tek cluster'a bakıyordu. Birden fazla cluster'ı, birden fazla workload domain'i izlemek gerektiğinde VCF Operations devreye giriyor.

HOL'da yeni bir sekmede VCF Operations'a giriş yapıyoruz:

Infrastructure Operations > Storage Operations

Storage Operations: Ne Görünüyor?

Ekran üç katmanda bilgi sunuyor:

Üst kısım:

Storage Alert Trends: Tüm storage instance'larında kaç uyarı var.
Usage and Distribution: vSAN ve vSAN dışı storage'ları kapsayan toplam/boş kapasite.

Orta kısım:

vSAN Cluster Health Score: Tüm cluster'ların Skyline health skoru bir arada.
vSAN Cluster Types: HOL ortamında ne var ne yok görünüyor: 1 ESA cluster, 2 OSA cluster, 1 Storage Cluster, 1 Compute Cluster. Bu dağılım modül bazlı hangi konuların ayrı cluster türleri gerektirdiğini göstermesi açısından da ilginç.
vSAN Cluster Performance: Tüm cluster'ların IOPS, throughput ve latency değerleri; tek ekranda.

Alt kısım: Cluster bazında daha granüler metrikler.

Hazır Dashboard'lar

Dashboards & Reports menüsüne geçip arama kutusuna "vsan" yazınca hazır dashboard listesi çıkıyor. "vSAN ESA Performance" dashboard'unu açıp bir cluster seçince IOPS, latency ve throughput verilerini görselleştirilmiş halde görüyorsunuz.

Bu dashboard'ların önemli bir özelliği var: VCF Operations içinde tek bir cam yüzeyi sunuyorlar. vCenter'da cluster cluster dolaşmak yerine buradan konsolidasyon yapılabiliyor.

Genel Değerlendirme

Bu modül bir öncekinden farklı bir kas grubu çalıştırıyor. Kurulum ve yapılandırma değil, okudum anlama.

Bir şey dikkat çekti: vSAN'ın izleme araçları birbiriyle iç içe geçmiş ama her biri farklı bir soruya cevap veriyor. Skyline Health "sorun var mı" sorusu için. Kapasite ekranı "ne kadar yerim kaldı ve bu yeter mi" için. Performans servisi "sistem iyi çalışıyor mu, darboğaz nerede" için. VCF Operations ise bu üçünü birden tek pencerede görmek ve birden fazla cluster'ı karşılaştırmak için.

Gerçek ortamda bu ayrımı bilmeden izleme yapmak, doğru araçla yanlış soruyu sormak anlamına gelebilir. Mesela kapasite doluyken performans grafiklerine bakmak, asıl problemi kaçırmanıza neden olabilir.

Bir diğer gözlem: Performans veritabanının vCenter'dan bağımsız bir vSAN nesnesi olarak depolanması teorik olarak temiz bir tasarım. Ama bu nesne erişilemez hale gelirse performans geçmişine de ulaşamazsınız. Production'da bu nesnenin politikasını ve sağlığını ayrıca takip etmek gerekiyor; HOL'da bunu görüp not aldım.

Bir sonraki hafta Modül 3'e geçiyorum: vSAN şifreleme ve güvenlik.

Bu seri VMware HOL ortamı (HOL-2634-01-VCF-L) üzerinden yürütülmektedir. Buradaki gözlemler lab bağlamında değerlendirilmeli, production ortamı kararları için mutlaka resmi VMware dokümantasyonu ve deneyimli mühendisler referans alınmalıdır.