Exchange Server 2013 Managed Availability
description
Transcript of Exchange Server 2013 Managed Availability
Exchange Server 2013 Managed AvailabilityKonrad SagałaArchitekt systemów ITAPN Promise S.A.
2
Jak zmiany w architekturze Exchange Server 2013 wpływają na zmiany w monitorowaniuUsprawnienia monitowania w Exchange Server 2013
Agenda
3
Stan dostępności usług Exchange
CAS
Architektura Exchange 2013Przy połączeniu do skrzynki, protokół wykorzystany do połączenia jest zawsze udostępniany przez serwer, na którym jest aktywna kopia bazy danych
Obsługa serwisowa Exchange Online zmieniła mechanizmy monitorowania
Rozbudowana automatyzacjaMonitorowanie
User
DAG1MBX-A MBX-BMBX-BMBX-A
Layer 4LB
Usprawnione zarządzanie usługami
5
Exchange 2013 Managed Availability
Sprawdzone w chmurzeDoświadczenia zebrane przez grupę wsparcia Office365
User FocusedMonitorowanie oparte na doświadczeniach użytkowników
Recovery OrientedOptymalizacja Exchange pod kątem odtwarzania funkcjonalności
Ponad 6 lat działania usługiExchange Engineering Team od 2007 roku obsługuje Exchange Online, zbierając doświadczenia i budując na ich podstawie kolejne wersje produktu
Inżynierowie obsługują zgłoszenia serwisoweWdrażane są odpowiednie mechanizmy reakcji na problemy z motywacją zespołu w celu automatyzacji wykrywania i naprawy problemów
Skalowalność, automatyzacja, wysoka dostępność jako kluczowe aspektyRozproszone przetwarzanie informacji i zbieranie doświadczeń
Sprawdzone w chmurze
Jeżeli nie możesz czegoś zmierzyć, nie możesz tym zarządzać
DostępnośćCzy usługa jest dostępna?
OpóźnienieJakie jest moje doświadczenie?
BłędyCzy jestem w stanie uzyskać to co chcę?
Dostępność
BłędyOpóźnienie
Customer Touch Points
8
Recovery Oriented
—OWA send—OWA failure—OWA fast recovery—OWA verified as healthy —OWA send—OWA failure—OWA fast recovery—Failover server’s databases—OWA verified as healthy —Server becomes “good” failover target (again)
LB CAS-1
CAS-2
DAGMBX-1
DB1 DB2
MBX-2
OWA DB1 DB2
MBX-3
OWA DB1 DB2
OWA
OWA
OWA
OWA DB1
DB1
“stuff breaks and the Experience does not”
9
Managed Availability
Jak działa Managed Availability
Probe
Check
Notify
Monitor“state of the world”
Escalate“take human driven action”
Recover“restore service or prevent failure”
SCOM
Exchange 2013 Server
Managed Availability
10
Monitoring Layers
CAS
MBX
PROTOCOL
STORE
PROTOCOL PROXY
4
3
2
1
PROACTIVE REACTIVE20s 5min 20mi
n
System Level ChecksMailbox Self Test(e.g. OWA MST) [detection 5m]Protocol Self Test(e.g. OWA PST) [detection 20 secs]Proxy Self Test(e.g. OWA PrST) [detection 20 secs]
End User Experience Level ChecksCustomer Touch Point – CTP(e.g. OWA CTP) [detection 20m]
11
ProbesKluczowym celem jest mierzenie postrzegania usług przez użytkownikówPrzeważnie wykorzystuje syntetyczne transakcje end to end
ChecksKluczowym celem jest mierzenie bierzącego ruchu klientów i reagowanie na ewentualne problemyPrzeważnie realizowane jako liczniki wydajności, w których ustawiane są warunki wykrywające awarie
NotifyKluczowym celem jest natychmiastowa reakcja na krytyczny problemTypowo są to wyjątki i warunki, które mogą być wykryte w prosty sposób
Próbniki Probe
Check
Notify
Monitory sprawdzają dane zebrane przez próbniki i określają, czy trzeba podjąć akcję naprawczą na podstawie zbioru zasadDefiniowany jest czas od wystąpienia awarii, po którym uruchamiany jest responderW zależności od reguły, monitor może uruchomić responder lub eskalować akcję
Monitory
Monitor“state of the world”
Escalate“take human driven action”
Wykonuje akcję w odpowiedzi na alert wygenerowany przez monitorJest kilka typów responderówRestart Responder – Zatrzymuje i restartuje usługęReset AppPool Responder – Uruchamia recycle dla puli aplikacyjnej IISFailover Responder – Wyłącza serwer MBX z pracy w DAGBugcheck Responder – Inicjuje kontrolę błędów na serwerzeOffline Responder- Przełącza protokół na serwerze w tryb out of serviceOnline Responder – Udostępnia serwer do działaniaEscalate Responder – eskaluje przypadekInne specjalizowane Respondery komponentów
Wbudowany mechanizm sekwencyjnej kontroli działania
Respondery
Escalate“take human driven action”
Recover“restore service or prevent failure”
Monitor States
Managed Availability PipelinePróbkowanie Wykrywanie Odtwarzanie
Probe Definition
Monitor Definition
Responder Results
(Responses)
Responder Definition
T3
00:00:00
00:00:10
00:00:30
Restart ResponderReset AppPool
ResponderFailover responder
Bugcheck responderOffline Responder
Escalate Responder
Przykład potoku sekwencyjnego respondera HA
Named Times
Probe Results (Samples) ResponderProbe
Notification Item
Monitor Results (Alerts)
Healthy
T1
T2
Monitor
15
Doświadczenia z obsługi Office365 wbudowane w Exchange Server 2013Wdrożenie w dużej skali ma duże wymagania na monitorowanie
Chmura pozwala udowodnić zalety monitoringuProste testy protokołowe wykrywają podstawowe problemyRestart protokołu jest w większości wypadków zalecanym pierwszym krokiem naprawczymTestowanie skrzynek zarówno per serwer jak i per baza danych
Zweryfikowane w chmurze
16
Throttling ma gwarantować, że nie wyłączymy wszystkiegoWszystkie respondery mają ustawiony throttling w pewnym zakresieNiektóre minimalizują ilość serwerów w grupieNiektóre ograniczają czas działaniaNiektóre ograniczają ilość wystąpieńNiektóre łączą wszystkie powyższe ograniczenia
W zależności od respondera, throttling powoduje, że akcja może być opóźniona a nawet pominięta Np. gdy dla Bugcheck Respondera uruchomi się throttling, akcja jest pominięta
Responder Throttling
W wersjach RTM i CU1, respondery miały włączany throttling per serverW CU2, niektóre respondery mają włączony throttling per group
Responder Throttling in CU2
Recovery Action
Enabled
Per Server Per GroupMinutes Between Actions
Max Allowed Per Hour
Max Allowed Per Day
Minutes Between Actions
Max Allowed Per Day
ForceReboot True 720 N/A 1 600 4
SystemFailover True 60 N/A 1 60 4
RestartService True 60 N/A 1 60 4
ResetIISPool True 60 N/A 1 60 4
DatabaseFailover True 120 N/A 1 120 4
ComponentOffline True 60 N/A 1 60 4
ComponentOnline True 5 12 288 5 Large
MoveClusterGroup True 240 N/A 1 480 3
ResumeCatalog True 5 4 8 5 12
WatsonDump True 480 N/A 1 720 4
18
Cała funkcjonalność Managed Availability wykorzystuje osobny zestaw logów serwerowych, tzw. Crimson channel
Crimson Channel
Management Surfaces
20
Raporty są podzielone na 4 health groupy:Customer Touch Points – komponenty, mające wpływ na bieżącą pracę użytkowników (protocols)Service Components – komponenty bez bezpośredniego wpływu na użytkowników (MRS, OABGen)Server Components – fizyczne zasoby serwera (disk space, memory, network)Dependency Availability – zależność od zewnętrznych komponentów (AD, DNS, etc.)
Health groups – widoczne w SCOM
Health Groups
Health Sets
Health Set to grupa monitorów, próbników i responderów, które wskazują, czy dany komponent jest zdrowyStan „zdrowia” jest określony przez najgorszy stan monitorów w health secieRysunek pokazuje zależność health setów dla OWA.
ProtocolHealth Set
ProxyHealth Set
CTPHealth Set
CAS
MBX
PROTOCOL
STORE
PROTOCOL PROXY
4
3
2
1
OWA
OWA.Proxy
OWA.Protocol
22
Get-ServerHealth pokazuje szczegółowe informacje o „stanie zdrowia” serwera lub grupy serwerówGet-HealthReport operuje na tych samych danych pokazując zwięzły raportJak sprawdzić, które próbniki, monitory i respondery są powiązane z danym Healt Setem?
Get-MonitoringItemIdentity –Identity <HealthSet> -Server <ServerName> | ft identity,itemtype,healthsetname,name -auto
Użycie Management Shella
23
Bardziej szczegółowe wyniki – tylko „niezdrowe” komponentyget-healthreport -server srv-ex1 | where {$_.alertvalue -ne “healthy”} | ft –auto
Użycie Management Shella c.d.
24
Informacja o restartach realizowanych przez respondery:
$RecoveryActionResultsEvents = Get-WinEvent –ComputerName srv-ex1 -LogName Microsoft-Exchange-ManagedAvailability/RecoveryActionResults$RecoveryActionResultsXML = ($RecoveryActionResultsEvents | Foreach-object -Process {[XML]$_.toXml()}).event.userData.eventXml$RecoveryActionResultsXML > c:\Scripts\recoveryresults.txt
Użycie Management Shella c.d.
Override ManagementView OverridesGet-ServerMonitoringOverride –Server <Server>Get-GlobalMonitoringOverride
Create OverrideAdd-ServerMonitoringOverride <HealthSet>\<Name> -Server <Server> -ItemType <Monitor,Probe,Responder> [-Duration <Time> -ApplyVersion <Version>] -PropertyName <Property> -PropertyValue <Value>Add-GlobalMonitoringOverride <HealthSet>\<Name> -ItemType <Monitor,Probe,Responder> [-Duration <Time> -ApplyVersion <Version>] -PropertyName <Property> -PropertyValue <Value>
Remove OverrideRemove-ServerMonitoringOverrideRemove-GlobalMonitoringOverride
26
SCOM jest używany jako portal dla sprawdzenia informacji o stanie zdrowia komponentów środowiska ExchangeEskalacje responderów zapisują zdarzenia w event logu, co jest obsługiwane przez monitor w SCOMAlert wyeksponowany w konsoli SCOM, niekoniecznie wskazuje sumę wszystkich problemów w danym momencieDashboard jest podzielony na trzy obszaryActive AlertsOrganization HealthServer HealthManagement Pack działa w systemach: SCOM 2007 R2, SCOM 2012
SCOM Portal
27
Stan Health Groupy jest wyliczany na podstawie stanu monitorów w danej grupie
Health Group może mieć jeden z sześciu stanów: Healthy, Degraded, Unhealthy, Repairing, Disabled lub Unavailable
Widok Health w SCOM
Podsumowanie
28
Zauważone problemy i rozwiązania
30
http://pepugmaster.blogspot.com/2013/12/nadpisywanie-ustawien-managed.html -> PublicFolders health set is "Unhealthy" after you install Exchange Server 2013 Cumulative Update 3 - http://support.microsoft.com/kb/2911802/plOpis troubleshootingu Exchange 2013 Management Pack Health Sets - http://technet.microsoft.com/en-us/library/dn195892(v=exchg.150).aspxProblem z restartem usługi RPC Client Access przez MA http://pepugmaster.blogspot.com/2013/11/poprawki-aspnet-dla-exchange-2013.html
Blog zespółu produktowego:http://blogs.technet.com/b/exchange/archive/2012/09/21/lessons-from-the-datacenter-managed-availability.aspx
http://blogs.technet.com/b/exchange/archive/2013/07/16/managed-availability-monitors.aspx
http://blogs.technet.com/b/exchange/archive/2013/06/13/what-did-managed-availability-just-do-to-this-service.aspx
http://blogs.technet.com/b/exchange/archive/2013/08/13/customizing-managed-availability.aspx
Mój bloghttp://pepugmaster.blogspot.com/2013/11/wykorzystanie-karmazynowego-kanau-do.html
http://pepugmaster.blogspot.com/2013/10/monitorowanie-stanu-serwera-exchange.html
Dodatkowe informacje
31
Pytania?