Download - Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Transcript
Page 1: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Kewei Sun, Jie Qiu, Ying Li, Ying ChenIBM China Research Laboratory, Beijing, China.

Network Operations and Management Symposium - NOMS 2008

Apresentado por Katia AbreuTópicos em Redes

Pós-Graduação em Informática – UFPR – out/2008

“A State Machine Approach for Problem Detection in Large-scale Distributed

System”

Page 2: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Motivação Detecção de problema é parte importante do

gerenciamento de um sistema de larga-escalaSistemas distribuídos geram logs detalhados

para gravar suas atividades

Problemas ainda são inevitáveis: bug da aplicação, middleware instável, hardwareEmpresas: QoS reduzido, competitividade

reduzida Abordagens existentes:

Poucas consideram a análise de log de múltiplos hosts de um sistema distribuído em larga-escala

Algumas detectam somente problemas conhecidos

Page 3: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Roteiro Objetivos Conceitos e Definições Transação, Eventos e Transições em ME Detecção de Anomalias e Padrões de

Problemas Um Estudo de Caso Conclusão

Page 4: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Objetivos Apresentar um novo modelo de análise de logs:

PDSM (Problem Detection State Machine) Baseia-se na projeção do comportamento de um

sistema distribuído e mantém informações estatísticas desse comportamento

Objetivo do método: coletar logs de componentes do sistema, construir uma Máquina de Estados, e usá-la pra verificar o comportamento de um

sistema.

Descrever como PDSM representa as atividades de um sistema de larga-escala em execução.

Page 5: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Definição do Ambiente

SD subsistema

s

componentes

Transação

Estados = componentes + transição Controle de processamento é passado de um componente a outro

Requisição da

aplicação

O que é Maq. Estados?

O que é SD em larga-escala?

Page 6: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

SD é composto por um conjunto de componentesC = {c1,c2,…,cn}

Um ci é componente atômico se ele não contém outros componentes

Ponto de Log é o local onde log de eventos são gerados. O conjunto de pontos de log de um componente

atômico é L(ci) = {lp1,lp2,...lpm}

Para cada transação disparada por uma requisição r, ∃ um conjunto de componentes C(r), onde C(r) ⊂ C

Definições Para o PDSM

Page 7: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Máquina de Estados de Transação de Única Requisição

Define-se Máquina de Estados - Mr - de uma transação, servindo uma única requisição, através da tupla:

Estados da transação

Conjunto dos Eventos que geram

transiçõesA probab. de um Estado de Qr ser o

estado inicial

Page 8: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

PDSM Global Une todas as máquinas de estados de todas

as requisições. Pode ser denotada por:

Page 9: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Questões com os Eventos Logs são geradas por diferentes

componentes Itens de log devem ter formato único

Não existe relógio global Um método deve determinar a ordem

relativa dos eventos

É requerido rastrear a transação e extrair os eventos relacionados a ela

Page 10: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

PDSM: Processamento de Eventos

Log de eventos são convertidos em um formato único, isto é, eventos base comum

Para assegurar a abordagem adaptativa, não

assume que todos os relógios são sincronizados Ordem parcial em um conjunto de eventos +

informações de tempo real

Para extrair os eventos relacionados à transação Magpie, Pinpoint

Page 11: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Algoritmos

Page 12: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Construção de Máquina de Estados Usando Log de Eventos

Agrupamento de eventos em Estados De acordo com suas especificações e informações

de mensagens O algoritmo:

Page 13: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Detecção de Anomalianum.

Estados de S4

num. transições de um Estado para outro

99,9%

0,1% Ponto de problema ou execução de um serviço acessado raramente?

Page 14: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Como resolver?

Usar informações detalhadas da transição S2 S5 e do Estado S5

Algoritmo para avaliar a anomalia dos Estados

Idéia básica: visitar uma série de Estados ruins que se desviam do percurso normal

O Estado mais suspeito de ser um problema é distinguido dos demais

Page 15: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Classificação dos eventos em níveis de erro: error/fatal, exception, warning, information e unknown

É aplicada uma função para verificar o nível do Estado de erro E(s)

Para cada Estado a partir do seu nível de erro é calculado se o Estado é uma Anomalia, se é um estado Normal, ou se não é possível classificar.

Algoritmo para Avaliar Estado Anormal

Page 16: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Para erros que acontecem intermitentemente em um ou mais Estados

Conectividade: Existe uma ligação entre esses Estados com erros intermitentes

Verifica se o problema acontece em pares de Estados conectivos e se ambos têm o problema

Saída: o conjunto de transições consideradas padrões de problemas

Algoritmo para Detecção de Padrão de Problema

Page 17: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Experimentação 4 máquinas Emprego do benchmark Trade 6 A abordagem é validada sobre a aplicação J2EE 3-tier

Page 18: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Problemas Introduzidos Introduzidos separadamente Com duração de 1 hora Após 30 minutos de execução do sistema

Page 19: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Detecção de Problema Individual Projeção de um problema de shutdown acidental

em DB2

Page 20: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Inserção de Um Problema Um novo problema aumenta o número de Estados PDSM fornece uma projeção em tempo real

Page 21: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Detecção de Múltiplos Problemas

Máquina de Estados Global para todos os problemas introduzidos

Page 22: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Número de Estados e número de transições aumentam a cada novo problema

Inserção de Múltiplos Problemas

Page 23: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Compressão de Logs PDSM une informações redundantes De milhões de logs/cententas de Estados para

1.200.000 logs/291 Estados

Page 24: Kewei Sun, Jie Qiu, Ying Li, Ying Chen IBM China Research Laboratory, Beijing, China.

Conclusão PDSM é um modelo de análise de log que

representa a execução de um sistema distribuído de larga-escala

Mantém informações estatísticas de comportamento

Reduz os esforços de análise de logs ao fazer compressão

Não necessita de conhecimento de alguma base de dados de problemas

É sensível a problemas desconhecidos