Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.
Embed Size (px)
description
Transcript of Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.
-
Kewei Sun, Jie Qiu, Ying Li, Ying ChenIBM China Research Laboratory, Beijing, China.
Network Operations and Management Symposium - NOMS 2008
Apresentado por Katia AbreuTpicos em RedesPs-Graduao em Informtica UFPR out/2008A State Machine Approach for Problem Detection in Large-scale Distributed System
-
MotivaoDeteco de problema parte importante do gerenciamento de um sistema de larga-escalaSistemas distribudos geram logs detalhados para gravar suas atividades
Problemas ainda so inevitveis: bug da aplicao, middleware instvel, hardwareEmpresas: QoS reduzido, competitividade reduzida
Abordagens existentes:Poucas consideram a anlise de log de mltiplos hosts de um sistema distribudo em larga-escalaAlgumas detectam somente problemas conhecidos
-
RoteiroObjetivos
Conceitos e Definies
Transao, Eventos e Transies em ME
Deteco de Anomalias e Padres de Problemas
Um Estudo de Caso
Concluso
-
ObjetivosApresentar um novo modelo de anlise de logs: PDSM (Problem Detection State Machine)
Baseia-se na projeo do comportamento de um sistema distribudo e mantm informaes estatsticas desse comportamento
Objetivo do mtodo: coletar logs de componentes do sistema, construir uma Mquina de Estados,e us-la pra verificar o comportamento de um sistema.
Descrever como PDSM representa as atividades de um sistema de larga-escala em execuo.
-
Definio do AmbientesubsistemascomponentesTransaoEstados = componentes + transio Controle de processamento passado de um componente a outroRequisio da aplicaoO que Maq. Estados?O que SD em larga-escala?
-
O Conceito de PDSMProjeo do comportamento dos componentesRequisies entrantes
-
SD composto por um conjunto de componentesC = {c1,c2,,cn}Um ci componente atmico se ele no contm outros componentes
Ponto de Log o local onde log de eventos so gerados. O conjunto de pontos de log de um componente atmico L(ci) = {lp1,lp2,...lpm}
Para cada transao disparada por uma requisio r, um conjunto de componentes C(r), onde C(r) CDefinies Para o PDSM
-
Mquina de Estados de Transao de nica RequisioDefine-se Mquina de Estados - Mr - de uma transao, servindo uma nica requisio, atravs da tupla:
Estados da transaoConjunto dos Eventos que geram transiesA probab. de um Estado de Qr ser o estado inicial
-
EquaoConsiderando Ir , Pr e Fr
-
PDSM GlobalUne todas as mquinas de estados de todas as requisies. Pode ser denotada por:
-
Questes com os EventosLogs so geradas por diferentes componentesItens de log devem ter formato nico
No existe relgio global Um mtodo deve determinar a ordem relativa dos eventos
requerido rastrear a transao e extrair os eventos relacionados a ela
-
PDSM: Processamento de Eventos Log de eventos so convertidos em um formato nico, isto , eventos base comum Para assegurar a abordagem adaptativa, no assume que todos os relgios so sincronizadosOrdem parcial em um conjunto de eventos + informaes de tempo real
Para extrair os eventos relacionados transaoMagpie, Pinpoint
-
Algoritmos
-
Construo de Mquina de Estados Usando Log de EventosAgrupamento de eventos em EstadosDe acordo com suas especificaes e informaes de mensagensO algoritmo:
-
Probabilidade de TransioA probabilidade de transio do Estado s para s denotada pela diviso de n por n, onde:n : nmero total de estados sn: nmero total de transies que acontecem entre s e s
-
Deteco de Anomalianum. Estados de S4num. transies de um Estado para outro99,9%0,1%Ponto de problema ou execuo de um servio acessado raramente?
-
Como resolver?Usar informaes detalhadas da transio S2 S5 e do Estado S5
Algoritmo para avaliar a anomalia dos EstadosIdia bsica: visitar uma srie de Estados ruins que se desviam do percurso normalO Estado mais suspeito de ser um problema distinguido dos demais
-
Algoritmo para Avaliar Estado AnormalClassificao dos eventos em nveis de erro: error/fatal, exception, warning, information e unknown
aplicada uma funo para verificar o nvel do Estado de erro E(s)
Para cada Estado a partir do seu nvel de erro calculadose o Estado uma Anomalia, se um estado Normal,ou se no possvel classificar.
-
Algoritmo para Deteco de Padro de ProblemaPara erros que acontecem intermitentemente em um ou mais Estados
Conectividade: Existe uma ligao entre esses Estados com erros intermitentes
Verifica se o problema acontece em pares de Estados conectivos e se ambos tm o problema
Sada: o conjunto de transies consideradas padres de problemas
-
Experimentao 4 mquinas Emprego do benchmark Trade 6 A abordagem validada sobre a aplicao J2EE 3-tier
-
Problemas IntroduzidosIntroduzidos separadamenteCom durao de 1 horaAps 30 minutos de execuo do sistema
-
Deteco de Problema IndividualProjeo de um problema de shutdown acidental em DB2
-
Insero de Um Problema Um novo problema aumenta o nmero de EstadosPDSM fornece uma projeo em tempo real
-
Deteco de Mltiplos ProblemasMquina de Estados Global para todos os problemas introduzidos
-
Insero de Mltiplos ProblemasNmero de Estados e nmero de transies aumentam a cada novo problema
-
Compresso de LogsPDSM une informaes redundantesDe milhes de logs/cententas de Estados para 1.200.000 logs/291 Estados
-
ConclusoPDSM um modelo de anlise de log que representa a execuo de um sistema distribudo de larga-escala
Mantm informaes estatsticas de comportamento
Reduz os esforos de anlise de logs ao fazer compresso
No necessita de conhecimento de alguma base de dados de problemas
sensvel a problemas desconhecidos
*Uma abordagem de Mquina de Estados para Deteco de Problema em sistemas Distribudos de Larga-escala.**Qual a motivao deste trabalho?Para fins de gerenciamento, sistemas distribudos geram logs detalhados para gravar suas atividades.O tipo de problema que pode ocorrer em uma aplicao distribuda : bugs da aplicao, middleware instvel e problemas inesperados de hardware.Esses problemas no s reduzem o QoS mas tb colocam uma empresa em posio inferior na competio com sua concorrncia.
As abordagens de deteco de problemas existentes dependem de conhecimento e concluso experimental e geralmente no consideram mltiplos hosts, alm de algumas abordagens serem capazes de detectar somente problemas conhecidos baseados numa base de dados de sintomas (comportamentos que um sistema comea a ter, o sintoma decorrente de um comportamento).por tentar monitorar os comportamentos de falta do sistema.
*PDSM uma Mquina de Estados de Deteco de Problema.O segundo objetivo descrever com ele representa as atividades de um sistema para que possa ser feita a analise de log.
O que um SD de larga escala para os autores?Um sistema distribudo composto por subsistemas que interagem atravs de seus componentes.Quando uma aplicao faz uma requisio ao sistema,uma transao disparada. Uma transao geralmente envolve mais de um componente.Transaes so portanto atividades-escopo do sistema.Nesta abordagem de ME, os estados correspondem a ...Nesta abordagem de deteco de problema baseado em mquina de estados, Estados so os componentes e a transio que acontece qndo o controle de processamento passado de um componente para outro.Nesta figura temos a representao dos componentes de um sistema distribudo na primeira parte, a representao dos logs na segunda parte e a representao da mquina de estados na terceira parteOs logs so a projeo do comportamento dos componentes.O retangulo representa as requisies entrantes.A presena de um nico log de entrada indica que o componente entra em um estado de execuo correspondente, ou seja, executando apenas uma requisio.Entradas ordenadas de logs, geradas pelo mesmo componente, indicam um processamento interno de atividade de transformao.Logs ordenados de multi-componentes ilustram sistema-todo controle transfer.*Por se tratar de uma modelagem terica, vamos estabelecer algumas definies para o mtodo.*Ainda falando sobre as definies, define-se mquina de Estados de ...Com as definies anteriores, define-se mquina de estados...Mr composta por alguns conjuntos onde Qr ...Um sistema distribudo vai conter vrias requisies, possvel obter um PDSM global unindo todas as mquinas de estados de todas as requisies.Na sua denotao vai usar os mesmos conjuntos anteriores o que muda que aqui o Q ser igual unio de todos os conjuntos de estados das requisies individuais...*Em geral necessario fazer um tratamento dos eventos antes de se construir uma abordagem para analise de logs.%%Antes de construir o PDSM deve ser feito um processamento nos logs devido as seguintes razes:*Os autores no detalharam esses esquemas porque processamento de eventos no o foco do trabalho.
Existem algoritmos de outros autores que faz isso e que apenas foram citados neste trabalho.Os projetos Magpie e Pinpoint so para essa finalidade. Aps fazer o processamento dos eventos, a construo de uma mquina de estados usando log de eventos o processo de fazer um agrupamento de eventos em estados de acordo com suas especificaes e informaes de mensagens. O algoritmo de construo do PDSM vai conter um vetor que... Uma varivel que... Outra varivel que...
porque embora os eventos e1 e e2 sejam gerados pelo mesmo ponto de log no significa que sejam os mesmos pois e1 pode ser uma consulta e e2 pode ser uma atualizao.Depois da construo do PDSM fica fcil encontrar comportamentos falhos em um sistema. Durante a execuo do sistema, alguns problemas raramente aparecem enquanto outros podem aparecer frequentemente. Esta figura representa um exemplo de um diagrama parcial de transio de um PDSM.Considerando os Estados de S1 a S6, cada seta representa uma transio de um Estado para outro. Em cada Estado tem-se a varivel com o nmero de transies que ocorrem de um Estado para outro ou a varivel com o nmero de ocorrncias do Estado S4. O Estado S2 tem duas transies que saem dele para os Estados S3 e S5. Como o PDSM mantm informaes estatsticas do comportamento de um sistema fcil detectar um problema de acordo com o nmero de Estados e a probabilidade de transio entre os Estados.A transio em direo ao Estado S3 tem 99,9% de probabilidade enquanto a outra com direo a S5 tem a probabilidade de 0,1%.No entando a atividade do sistema representada pela transio de S2 para S5 no parece acontecer to frequentemente quanto as outras que tm o valor 2999, 3000. Neste caso o Estado S5 passa a ser tratado como um potencial Estado de anomalia.Mas ainda no se pode afirmar que este um ponto onde ocorre um problema, porque isto pode representar a execuo de um servio raramente acessado.Distinguido dos demais, ou seja, daquele que podem apenas ser um servio raramente acessado.Eventos o que leva a transies.Se baseia no conceito de conectividadeO ambiente de teste foi experimental.Estados e transies em verde indicam o comportamento normal de requisies entrantes. Estados e transies vermelhas so a projeo do problema de shutdown acidental no DB2.O grfico ilustra que quando um novo problema ocorre h um aumento no nmero de estados.Comprova tambm a capacidade do PDSM de fornecer uma projeo em tempo real da execuo do sistema.Esta figura ilustra o resultado de Maquina de Estados Global para todos os problemas introduzidos um por um na execuo do sistema.Fica claro que todos os Estados e transies so particionados em 6 partes.A rea verde indica o comportamento normal do sistema porm a quantidade de estados e transies vermelhos tm um aumento sbito e cada rea densa indica um dos problemas.PDSM tem uma qualidade importante que a habilidade de compresso de informao.A figura mostra o nmero de logs com o nmero de estados coletados neste ltimo experimento. Haveriam milhes de eventos mapeados para centenas de Estados, mas com PDSM a quantidade de informao aos sistemas de gerenciamento reduzida.No experimento foi reduzida em 99,97% gerando 1 milho e 200 mil logs para 291 Estados.