Exchange Server 2013 Managed Availability

Exchange Server 2013 Managed AvailabilityKonrad SagałaArchitekt systemów ITAPN Promise S.A.

2

Jak zmiany w architekturze Exchange Server 2013 wpływają na zmiany w monitorowaniuUsprawnienia monitowania w Exchange Server 2013

Agenda

3

Stan dostępności usług Exchange

CAS

Architektura Exchange 2013Przy połączeniu do skrzynki, protokół wykorzystany do połączenia jest zawsze udostępniany przez serwer, na którym jest aktywna kopia bazy danych

Obsługa serwisowa Exchange Online zmieniła mechanizmy monitorowania

Rozbudowana automatyzacjaMonitorowanie

User

DAG1MBX-A MBX-BMBX-BMBX-A

Layer 4LB

Usprawnione zarządzanie usługami

5

Exchange 2013 Managed Availability

Sprawdzone w chmurzeDoświadczenia zebrane przez grupę wsparcia Office365

User FocusedMonitorowanie oparte na doświadczeniach użytkowników

Recovery OrientedOptymalizacja Exchange pod kątem odtwarzania funkcjonalności

Ponad 6 lat działania usługiExchange Engineering Team od 2007 roku obsługuje Exchange Online, zbierając doświadczenia i budując na ich podstawie kolejne wersje produktu

Inżynierowie obsługują zgłoszenia serwisoweWdrażane są odpowiednie mechanizmy reakcji na problemy z motywacją zespołu w celu automatyzacji wykrywania i naprawy problemów

Skalowalność, automatyzacja, wysoka dostępność jako kluczowe aspektyRozproszone przetwarzanie informacji i zbieranie doświadczeń

Sprawdzone w chmurze

Jeżeli nie możesz czegoś zmierzyć, nie możesz tym zarządzać

DostępnośćCzy usługa jest dostępna?

OpóźnienieJakie jest moje doświadczenie?

BłędyCzy jestem w stanie uzyskać to co chcę?

Dostępność

BłędyOpóźnienie

Customer Touch Points

8

Recovery Oriented

—OWA send—OWA failure—OWA fast recovery—OWA verified as healthy —OWA send—OWA failure—OWA fast recovery—Failover server’s databases—OWA verified as healthy —Server becomes “good” failover target (again)

LB CAS-1

CAS-2

DAGMBX-1

DB1 DB2

MBX-2

OWA DB1 DB2

MBX-3

OWA DB1 DB2

OWA

OWA

OWA

OWA DB1

DB1

“stuff breaks and the Experience does not”

9

Managed Availability

Jak działa Managed Availability

Probe

Check

Notify

Monitor“state of the world”

Escalate“take human driven action”

Recover“restore service or prevent failure”

SCOM

Exchange 2013 Server

Managed Availability

10

Monitoring Layers

CAS

MBX

PROTOCOL

STORE

PROTOCOL PROXY

4

3

2

1

PROACTIVE REACTIVE20s 5min 20mi

n

System Level ChecksMailbox Self Test(e.g. OWA MST) [detection 5m]Protocol Self Test(e.g. OWA PST) [detection 20 secs]Proxy Self Test(e.g. OWA PrST) [detection 20 secs]

End User Experience Level ChecksCustomer Touch Point – CTP(e.g. OWA CTP) [detection 20m]

11

ProbesKluczowym celem jest mierzenie postrzegania usług przez użytkownikówPrzeważnie wykorzystuje syntetyczne transakcje end to end

ChecksKluczowym celem jest mierzenie bierzącego ruchu klientów i reagowanie na ewentualne problemyPrzeważnie realizowane jako liczniki wydajności, w których ustawiane są warunki wykrywające awarie

NotifyKluczowym celem jest natychmiastowa reakcja na krytyczny problemTypowo są to wyjątki i warunki, które mogą być wykryte w prosty sposób

Próbniki Probe

Check

Notify

Monitory sprawdzają dane zebrane przez próbniki i określają, czy trzeba podjąć akcję naprawczą na podstawie zbioru zasadDefiniowany jest czas od wystąpienia awarii, po którym uruchamiany jest responderW zależności od reguły, monitor może uruchomić responder lub eskalować akcję

Monitory

Monitor“state of the world”


Wykonuje akcję w odpowiedzi na alert wygenerowany przez monitorJest kilka typów responderówRestart Responder – Zatrzymuje i restartuje usługęReset AppPool Responder – Uruchamia recycle dla puli aplikacyjnej IISFailover Responder – Wyłącza serwer MBX z pracy w DAGBugcheck Responder – Inicjuje kontrolę błędów na serwerzeOffline Responder- Przełącza protokół na serwerze w tryb out of serviceOnline Responder – Udostępnia serwer do działaniaEscalate Responder – eskaluje przypadekInne specjalizowane Respondery komponentów

Wbudowany mechanizm sekwencyjnej kontroli działania

Respondery


Recover“restore service or prevent failure”

Monitor States

Managed Availability PipelinePróbkowanie Wykrywanie Odtwarzanie

Probe Definition

Monitor Definition

Responder Results

(Responses)

Responder Definition

T3

00:00:00

00:00:10

00:00:30

Restart ResponderReset AppPool

ResponderFailover responder

Bugcheck responderOffline Responder

Escalate Responder

Przykład potoku sekwencyjnego respondera HA

Named Times

Probe Results (Samples) ResponderProbe

Notification Item

Monitor Results (Alerts)

Healthy

T1

T2

Monitor

15

Doświadczenia z obsługi Office365 wbudowane w Exchange Server 2013Wdrożenie w dużej skali ma duże wymagania na monitorowanie

Chmura pozwala udowodnić zalety monitoringuProste testy protokołowe wykrywają podstawowe problemyRestart protokołu jest w większości wypadków zalecanym pierwszym krokiem naprawczymTestowanie skrzynek zarówno per serwer jak i per baza danych

Zweryfikowane w chmurze

16

Throttling ma gwarantować, że nie wyłączymy wszystkiegoWszystkie respondery mają ustawiony throttling w pewnym zakresieNiektóre minimalizują ilość serwerów w grupieNiektóre ograniczają czas działaniaNiektóre ograniczają ilość wystąpieńNiektóre łączą wszystkie powyższe ograniczenia

W zależności od respondera, throttling powoduje, że akcja może być opóźniona a nawet pominięta Np. gdy dla Bugcheck Respondera uruchomi się throttling, akcja jest pominięta

Responder Throttling

W wersjach RTM i CU1, respondery miały włączany throttling per serverW CU2, niektóre respondery mają włączony throttling per group

Responder Throttling in CU2

Recovery Action

Enabled

Per Server Per GroupMinutes Between Actions

Max Allowed Per Hour

Max Allowed Per Day

Minutes Between Actions

Max Allowed Per Day

ForceReboot True 720 N/A 1 600 4

SystemFailover True 60 N/A 1 60 4

RestartService True 60 N/A 1 60 4

ResetIISPool True 60 N/A 1 60 4

DatabaseFailover True 120 N/A 1 120 4

ComponentOffline True 60 N/A 1 60 4

ComponentOnline True 5 12 288 5 Large

MoveClusterGroup True 240 N/A 1 480 3

ResumeCatalog True 5 4 8 5 12

WatsonDump True 480 N/A 1 720 4

18

Cała funkcjonalność Managed Availability wykorzystuje osobny zestaw logów serwerowych, tzw. Crimson channel

Crimson Channel

Management Surfaces

20

Raporty są podzielone na 4 health groupy:Customer Touch Points – komponenty, mające wpływ na bieżącą pracę użytkowników (protocols)Service Components – komponenty bez bezpośredniego wpływu na użytkowników (MRS, OABGen)Server Components – fizyczne zasoby serwera (disk space, memory, network)Dependency Availability – zależność od zewnętrznych komponentów (AD, DNS, etc.)

Health groups – widoczne w SCOM

Health Groups

Health Sets

Health Set to grupa monitorów, próbników i responderów, które wskazują, czy dany komponent jest zdrowyStan „zdrowia” jest określony przez najgorszy stan monitorów w health secieRysunek pokazuje zależność health setów dla OWA.

ProtocolHealth Set

ProxyHealth Set

CTPHealth Set

CAS

MBX

PROTOCOL

STORE

PROTOCOL PROXY

4

3

2

1

OWA

OWA.Proxy

OWA.Protocol

22

Get-ServerHealth pokazuje szczegółowe informacje o „stanie zdrowia” serwera lub grupy serwerówGet-HealthReport operuje na tych samych danych pokazując zwięzły raportJak sprawdzić, które próbniki, monitory i respondery są powiązane z danym Healt Setem?

Get-MonitoringItemIdentity –Identity <HealthSet> -Server <ServerName> | ft identity,itemtype,healthsetname,name -auto

Użycie Management Shella

23

Bardziej szczegółowe wyniki – tylko „niezdrowe” komponentyget-healthreport -server srv-ex1 | where {$_.alertvalue -ne “healthy”} | ft –auto

Użycie Management Shella c.d.

24

Informacja o restartach realizowanych przez respondery:

$RecoveryActionResultsEvents = Get-WinEvent –ComputerName srv-ex1 -LogName Microsoft-Exchange-ManagedAvailability/RecoveryActionResults$RecoveryActionResultsXML = ($RecoveryActionResultsEvents | Foreach-object -Process {[XML]$_.toXml()}).event.userData.eventXml$RecoveryActionResultsXML > c:\Scripts\recoveryresults.txt

Użycie Management Shella c.d.

Override ManagementView OverridesGet-ServerMonitoringOverride –Server <Server>Get-GlobalMonitoringOverride

Create OverrideAdd-ServerMonitoringOverride <HealthSet>\<Name> -Server <Server> -ItemType <Monitor,Probe,Responder> [-Duration <Time> -ApplyVersion <Version>] -PropertyName <Property> -PropertyValue <Value>Add-GlobalMonitoringOverride <HealthSet>\<Name> -ItemType <Monitor,Probe,Responder> [-Duration <Time> -ApplyVersion <Version>] -PropertyName <Property> -PropertyValue <Value>

Remove OverrideRemove-ServerMonitoringOverrideRemove-GlobalMonitoringOverride

26

SCOM jest używany jako portal dla sprawdzenia informacji o stanie zdrowia komponentów środowiska ExchangeEskalacje responderów zapisują zdarzenia w event logu, co jest obsługiwane przez monitor w SCOMAlert wyeksponowany w konsoli SCOM, niekoniecznie wskazuje sumę wszystkich problemów w danym momencieDashboard jest podzielony na trzy obszaryActive AlertsOrganization HealthServer HealthManagement Pack działa w systemach: SCOM 2007 R2, SCOM 2012

SCOM Portal

27

Stan Health Groupy jest wyliczany na podstawie stanu monitorów w danej grupie

Health Group może mieć jeden z sześciu stanów: Healthy, Degraded, Unhealthy, Repairing, Disabled lub Unavailable

Widok Health w SCOM

Podsumowanie

28

Zauważone problemy i rozwiązania

30

http://pepugmaster.blogspot.com/2013/12/nadpisywanie-ustawien-managed.html -> PublicFolders health set is "Unhealthy" after you install Exchange Server 2013 Cumulative Update 3 - http://support.microsoft.com/kb/2911802/plOpis troubleshootingu Exchange 2013 Management Pack Health Sets - http://technet.microsoft.com/en-us/library/dn195892(v=exchg.150).aspxProblem z restartem usługi RPC Client Access przez MA http://pepugmaster.blogspot.com/2013/11/poprawki-aspnet-dla-exchange-2013.html

http://pepugmaster.blogspot.com/2013/12/nadpisywanie-ustawien-managed.html




http://support.microsoft.com/kb/2911802/pl

http://support.microsoft.com/kb/2911802/pl

http://technet.microsoft.com/en-us/library/dn195892(v=exchg.150).aspx

http://technet.microsoft.com/en-us/library/dn195892(v=exchg.150).aspx

http://pepugmaster.blogspot.com/2013/11/poprawki-aspnet-dla-exchange-2013.html




Blog zespółu produktowego:http://blogs.technet.com/b/exchange/archive/2012/09/21/lessons-from-the-datacenter-managed-availability.aspx

http://blogs.technet.com/b/exchange/archive/2013/07/16/managed-availability-monitors.aspx

http://blogs.technet.com/b/exchange/archive/2013/06/13/what-did-managed-availability-just-do-to-this-service.aspx

http://blogs.technet.com/b/exchange/archive/2013/08/13/customizing-managed-availability.aspx

Mój bloghttp://pepugmaster.blogspot.com/2013/11/wykorzystanie-karmazynowego-kanau-do.html

http://pepugmaster.blogspot.com/2013/10/monitorowanie-stanu-serwera-exchange.html

Dodatkowe informacje

31

http://blogs.technet.com/b/exchange/archive/2012/09/21/lessons-from-the-datacenter-managed-availability.aspx



http://blogs.technet.com/b/exchange/archive/2013/07/16/managed-availability-monitors.aspx





http://pepugmaster.blogspot.com/2013/11/wykorzystanie-karmazynowego-kanau-do.html

http://pepugmaster.blogspot.com/2013/11/wykorzystanie-karmazynowego-kanau-do.html

http://pepugmaster.blogspot.com/2013/10/monitorowanie-stanu-serwera-exchange.html

Pytania?

Exchange Server 2013 Managed Availability

Documents

Transcript of Exchange Server 2013 Managed Availability