Exchange Server 2013 Managed Availability

31
Exchange Server 2013 Managed Availability Konrad Sagała Architekt systemów IT APN Promise S.A.

description

Exchange Server 2013 Managed Availability. Konrad Sagała Architekt systemów IT APN Promise S.A. Agenda. Jak zmiany w architekturze Exchange Server 2013 wpływają na zmiany w monitorowaniu Usprawnienia monitowania w Exchange Server 2013. Stan dostępności usług Exchange. - PowerPoint PPT Presentation

Transcript of Exchange Server 2013 Managed Availability

Page 1: Exchange Server 2013 Managed Availability

Exchange Server 2013 Managed AvailabilityKonrad SagałaArchitekt systemów ITAPN Promise S.A.

Page 2: Exchange Server 2013 Managed Availability

2

Jak zmiany w architekturze Exchange Server 2013 wpływają na zmiany w monitorowaniuUsprawnienia monitowania w Exchange Server 2013

Agenda

Page 3: Exchange Server 2013 Managed Availability

3

Stan dostępności usług Exchange

CAS

Architektura Exchange 2013Przy połączeniu do skrzynki, protokół wykorzystany do połączenia jest zawsze udostępniany przez serwer, na którym jest aktywna kopia bazy danych

Obsługa serwisowa Exchange Online zmieniła mechanizmy monitorowania

Rozbudowana automatyzacjaMonitorowanie

User

DAG1MBX-A MBX-BMBX-BMBX-A

Layer 4LB

Page 4: Exchange Server 2013 Managed Availability

Usprawnione zarządzanie usługami

Page 5: Exchange Server 2013 Managed Availability

5

Exchange 2013 Managed Availability

Sprawdzone w chmurzeDoświadczenia zebrane przez grupę wsparcia Office365

User FocusedMonitorowanie oparte na doświadczeniach użytkowników

Recovery OrientedOptymalizacja Exchange pod kątem odtwarzania funkcjonalności

Page 6: Exchange Server 2013 Managed Availability

Ponad 6 lat działania usługiExchange Engineering Team od 2007 roku obsługuje Exchange Online, zbierając doświadczenia i budując na ich podstawie kolejne wersje produktu

Inżynierowie obsługują zgłoszenia serwisoweWdrażane są odpowiednie mechanizmy reakcji na problemy z motywacją zespołu w celu automatyzacji wykrywania i naprawy problemów

Skalowalność, automatyzacja, wysoka dostępność jako kluczowe aspektyRozproszone przetwarzanie informacji i zbieranie doświadczeń

Sprawdzone w chmurze

Page 7: Exchange Server 2013 Managed Availability

Jeżeli nie możesz czegoś zmierzyć, nie możesz tym zarządzać

DostępnośćCzy usługa jest dostępna?

OpóźnienieJakie jest moje doświadczenie?

BłędyCzy jestem w stanie uzyskać to co chcę?

Dostępność

BłędyOpóźnienie

Customer Touch Points

Page 8: Exchange Server 2013 Managed Availability

8

Recovery Oriented

—OWA send—OWA failure—OWA fast recovery—OWA verified as healthy —OWA send—OWA failure—OWA fast recovery—Failover server’s databases—OWA verified as healthy —Server becomes “good” failover target (again)

LB CAS-1

CAS-2

DAGMBX-1

DB1 DB2

MBX-2

OWA DB1 DB2

MBX-3

OWA DB1 DB2

OWA

OWA

OWA

OWA DB1

DB1

“stuff breaks and the Experience does not”

Page 9: Exchange Server 2013 Managed Availability

9

Managed Availability

Jak działa Managed Availability

Probe

Check

Notify

Monitor“state of the world”

Escalate“take human driven action”

Recover“restore service or prevent failure”

SCOM

Exchange 2013 Server

Managed Availability

Page 10: Exchange Server 2013 Managed Availability

10

Monitoring Layers

CAS

MBX

PROTOCOL

STORE

PROTOCOL PROXY

4

3

2

1

PROACTIVE REACTIVE20s 5min 20mi

n

System Level ChecksMailbox Self Test(e.g. OWA MST) [detection 5m]Protocol Self Test(e.g. OWA PST) [detection 20 secs]Proxy Self Test(e.g. OWA PrST) [detection 20 secs]

End User Experience Level ChecksCustomer Touch Point – CTP(e.g. OWA CTP) [detection 20m]

Page 11: Exchange Server 2013 Managed Availability

11

ProbesKluczowym celem jest mierzenie postrzegania usług przez użytkownikówPrzeważnie wykorzystuje syntetyczne transakcje end to end

ChecksKluczowym celem jest mierzenie bierzącego ruchu klientów i reagowanie na ewentualne problemyPrzeważnie realizowane jako liczniki wydajności, w których ustawiane są warunki wykrywające awarie

NotifyKluczowym celem jest natychmiastowa reakcja na krytyczny problemTypowo są to wyjątki i warunki, które mogą być wykryte w prosty sposób

Próbniki Probe

Check

Notify

Page 12: Exchange Server 2013 Managed Availability

Monitory sprawdzają dane zebrane przez próbniki i określają, czy trzeba podjąć akcję naprawczą na podstawie zbioru zasadDefiniowany jest czas od wystąpienia awarii, po którym uruchamiany jest responderW zależności od reguły, monitor może uruchomić responder lub eskalować akcję

Monitory

Monitor“state of the world”

Escalate“take human driven action”

Page 13: Exchange Server 2013 Managed Availability

Wykonuje akcję w odpowiedzi na alert wygenerowany przez monitorJest kilka typów responderówRestart Responder – Zatrzymuje i restartuje usługęReset AppPool Responder – Uruchamia recycle dla puli aplikacyjnej IISFailover Responder – Wyłącza serwer MBX z pracy w DAGBugcheck Responder – Inicjuje kontrolę błędów na serwerzeOffline Responder- Przełącza protokół na serwerze w tryb out of serviceOnline Responder – Udostępnia serwer do działaniaEscalate Responder – eskaluje przypadekInne specjalizowane Respondery komponentów

Wbudowany mechanizm sekwencyjnej kontroli działania

Respondery

Escalate“take human driven action”

Recover“restore service or prevent failure”

Page 14: Exchange Server 2013 Managed Availability

Monitor States

Managed Availability PipelinePróbkowanie Wykrywanie Odtwarzanie

Probe Definition

Monitor Definition

Responder Results

(Responses)

Responder Definition

T3

00:00:00

00:00:10

00:00:30

Restart ResponderReset AppPool

ResponderFailover responder

Bugcheck responderOffline Responder

Escalate Responder

Przykład potoku sekwencyjnego respondera HA

Named Times

Probe Results (Samples) ResponderProbe

Notification Item

Monitor Results (Alerts)

Healthy

T1

T2

Monitor

Page 15: Exchange Server 2013 Managed Availability

15

Doświadczenia z obsługi Office365 wbudowane w Exchange Server 2013Wdrożenie w dużej skali ma duże wymagania na monitorowanie

Chmura pozwala udowodnić zalety monitoringuProste testy protokołowe wykrywają podstawowe problemyRestart protokołu jest w większości wypadków zalecanym pierwszym krokiem naprawczymTestowanie skrzynek zarówno per serwer jak i per baza danych

Zweryfikowane w chmurze

Page 16: Exchange Server 2013 Managed Availability

16

Throttling ma gwarantować, że nie wyłączymy wszystkiegoWszystkie respondery mają ustawiony throttling w pewnym zakresieNiektóre minimalizują ilość serwerów w grupieNiektóre ograniczają czas działaniaNiektóre ograniczają ilość wystąpieńNiektóre łączą wszystkie powyższe ograniczenia

W zależności od respondera, throttling powoduje, że akcja może być opóźniona a nawet pominięta Np. gdy dla Bugcheck Respondera uruchomi się throttling, akcja jest pominięta

Responder Throttling

Page 17: Exchange Server 2013 Managed Availability

W wersjach RTM i CU1, respondery miały włączany throttling per serverW CU2, niektóre respondery mają włączony throttling per group

Responder Throttling in CU2

Recovery Action

Enabled

Per Server Per GroupMinutes Between Actions

Max Allowed Per Hour

Max Allowed Per Day

Minutes Between Actions

Max Allowed Per Day

ForceReboot True 720 N/A 1 600 4

SystemFailover True 60 N/A 1 60 4

RestartService True     60     N/A 1 60 4

ResetIISPool True 60 N/A 1 60 4

DatabaseFailover True 120  N/A 1 120 4

ComponentOffline True  60 N/A  1   60  4

ComponentOnline True  5 12  288  5 Large

MoveClusterGroup True 240  N/A 1 480 3

ResumeCatalog True 5 4 8 5 12

WatsonDump True 480 N/A 1 720 4

Page 18: Exchange Server 2013 Managed Availability

18

Cała funkcjonalność Managed Availability wykorzystuje osobny zestaw logów serwerowych, tzw. Crimson channel

Crimson Channel

Page 19: Exchange Server 2013 Managed Availability

Management Surfaces

Page 20: Exchange Server 2013 Managed Availability

20

Raporty są podzielone na 4 health groupy:Customer Touch Points – komponenty, mające wpływ na bieżącą pracę użytkowników (protocols)Service Components – komponenty bez bezpośredniego wpływu na użytkowników (MRS, OABGen)Server Components – fizyczne zasoby serwera (disk space, memory, network)Dependency Availability – zależność od zewnętrznych komponentów (AD, DNS, etc.)

Health groups – widoczne w SCOM

Health Groups

Page 21: Exchange Server 2013 Managed Availability

Health Sets

Health Set to grupa monitorów, próbników i responderów, które wskazują, czy dany komponent jest zdrowyStan „zdrowia” jest określony przez najgorszy stan monitorów w health secieRysunek pokazuje zależność health setów dla OWA.

ProtocolHealth Set

ProxyHealth Set

CTPHealth Set

CAS

MBX

PROTOCOL

STORE

PROTOCOL PROXY

4

3

2

1

OWA

OWA.Proxy

OWA.Protocol

Page 22: Exchange Server 2013 Managed Availability

22

Get-ServerHealth pokazuje szczegółowe informacje o „stanie zdrowia” serwera lub grupy serwerówGet-HealthReport operuje na tych samych danych pokazując zwięzły raportJak sprawdzić, które próbniki, monitory i respondery są powiązane z danym Healt Setem?

Get-MonitoringItemIdentity –Identity <HealthSet> -Server <ServerName> | ft identity,itemtype,healthsetname,name -auto

Użycie Management Shella

Page 23: Exchange Server 2013 Managed Availability

23

Bardziej szczegółowe wyniki – tylko „niezdrowe” komponentyget-healthreport -server srv-ex1 | where {$_.alertvalue -ne “healthy”} | ft –auto

Użycie Management Shella c.d.

Page 24: Exchange Server 2013 Managed Availability

24

Informacja o restartach realizowanych przez respondery:

$RecoveryActionResultsEvents = Get-WinEvent –ComputerName srv-ex1 -LogName Microsoft-Exchange-ManagedAvailability/RecoveryActionResults$RecoveryActionResultsXML = ($RecoveryActionResultsEvents | Foreach-object -Process {[XML]$_.toXml()}).event.userData.eventXml$RecoveryActionResultsXML > c:\Scripts\recoveryresults.txt

Użycie Management Shella c.d.

Page 25: Exchange Server 2013 Managed Availability

Override ManagementView OverridesGet-ServerMonitoringOverride –Server <Server>Get-GlobalMonitoringOverride

Create OverrideAdd-ServerMonitoringOverride <HealthSet>\<Name> -Server <Server> -ItemType <Monitor,Probe,Responder> [-Duration <Time> -ApplyVersion <Version>] -PropertyName <Property> -PropertyValue <Value>Add-GlobalMonitoringOverride <HealthSet>\<Name> -ItemType <Monitor,Probe,Responder> [-Duration <Time> -ApplyVersion <Version>] -PropertyName <Property> -PropertyValue <Value>

Remove OverrideRemove-ServerMonitoringOverrideRemove-GlobalMonitoringOverride

Page 26: Exchange Server 2013 Managed Availability

26

SCOM jest używany jako portal dla sprawdzenia informacji o stanie zdrowia komponentów środowiska ExchangeEskalacje responderów zapisują zdarzenia w event logu, co jest obsługiwane przez monitor w SCOMAlert wyeksponowany w konsoli SCOM, niekoniecznie wskazuje sumę wszystkich problemów w danym momencieDashboard jest podzielony na trzy obszaryActive AlertsOrganization HealthServer HealthManagement Pack działa w systemach: SCOM 2007 R2, SCOM 2012

SCOM Portal

Page 27: Exchange Server 2013 Managed Availability

27

Stan Health Groupy jest wyliczany na podstawie stanu monitorów w danej grupie

Health Group może mieć jeden z sześciu stanów: Healthy, Degraded, Unhealthy, Repairing, Disabled lub Unavailable

Widok Health w SCOM

Page 28: Exchange Server 2013 Managed Availability

Podsumowanie

28

Page 30: Exchange Server 2013 Managed Availability

Blog zespółu produktowego:http://blogs.technet.com/b/exchange/archive/2012/09/21/lessons-from-the-datacenter-managed-availability.aspx

http://blogs.technet.com/b/exchange/archive/2013/07/16/managed-availability-monitors.aspx

http://blogs.technet.com/b/exchange/archive/2013/06/13/what-did-managed-availability-just-do-to-this-service.aspx

http://blogs.technet.com/b/exchange/archive/2013/08/13/customizing-managed-availability.aspx

Mój bloghttp://pepugmaster.blogspot.com/2013/11/wykorzystanie-karmazynowego-kanau-do.html

http://pepugmaster.blogspot.com/2013/10/monitorowanie-stanu-serwera-exchange.html

Dodatkowe informacje

31

Page 31: Exchange Server 2013 Managed Availability

Pytania?