Classificação OO.pdf

download Classificação OO.pdf

of 34

Transcript of Classificação OO.pdf

  • 7/21/2019 Classificao OO.pdf

    1/34

    Classificao

    Classificao OO

  • 7/21/2019 Classificao OO.pdf

    2/34

  • 7/21/2019 Classificao OO.pdf

    3/34

    Terminologia

    Exemplo, um objeto, um caso, umregistro, um tupla

    Atributo, varivel, feature, caracterstica

    Conjunto de treinamento, conjunto detesteAprendizado

    Avaliao

  • 7/21/2019 Classificao OO.pdf

    4/34

    Hiptese do Aprendizado Indutivo

    A tarefa no deterministica

    Qualquer hiptese que aproxime bem oconceito alvo num conjunto detreinamento, suficientemente grande,aproximara o conceito alvo para exemplosno observados.

  • 7/21/2019 Classificao OO.pdf

    5/34

    Overfitting e Underfitting

    A1A1

    A2 A2

    -- - - - - -

    - - -- - - - -- - - -

    + +-- - -- - - -

    -- - - - - -

    - - -- - - - -- - - -

    + +-- - -- - - -

    + + +

    + + +

    + + +

    + + +

    + + +

    + + +

    + + +

    + + +

    + + +

    + + +

  • 7/21/2019 Classificao OO.pdf

    6/34

  • 7/21/2019 Classificao OO.pdf

    7/34

    Consistncia e Completude

    Depois de induzida, uma hiptese podeser avaliada sobre

    consistncia, se classifica corretamente osexemplos

    completude, se classifica todos osexemplos

  • 7/21/2019 Classificao OO.pdf

    8/34

  • 7/21/2019 Classificao OO.pdf

    9/34

  • 7/21/2019 Classificao OO.pdf

    10/34

  • 7/21/2019 Classificao OO.pdf

    11/34

  • 7/21/2019 Classificao OO.pdf

    12/34

    Medindo a qualidade da predio

    Preciso, compreensvel e interessante

    Acuracia = classificados corretamente/total de exemplos

    Erro = 1-Acuracia

  • 7/21/2019 Classificao OO.pdf

    13/34

    Matriz de Confuso

    A matriz de confuso de uma hiptese hoferece uma medida efetiva do modelo declassificao, ao mostrar o nmero de

    classificaes corretas versus asclassificaes preditas para cada classe,sobre um conjunto de exemplos T

  • 7/21/2019 Classificao OO.pdf

    14/34

    Matriz de Confuso

  • 7/21/2019 Classificao OO.pdf

    15/34

  • 7/21/2019 Classificao OO.pdf

    16/34

  • 7/21/2019 Classificao OO.pdf

    17/34

  • 7/21/2019 Classificao OO.pdf

    18/34

    Prevalncia de Classe

    Um ponto muito importante em AM refere-se aodesbalanceamento de classes em um conjunto deexemplos

    Por exemplo, suponha um conjunto de exemplos T coma seguinte distribuio de classes dist(C1, C2, C3) =(99.00%, 0.25%, 0.75%), com prevalncia da classe C1

    Um classificador simples que classifique sempre novosexemplos como pertencentes classe majoritria C1teria uma preciso de 99,00% (maj-err(T) = 1,00%)

    Isto pode ser indesejvel quando as classes minoritriasso aquelas que possuem uma informao muitoimportante, por exemplo, supondo C1: paciente normal,C2: paciente com doena A e C3: paciente com doenaB

  • 7/21/2019 Classificao OO.pdf

    19/34

    Prevalncia de Classe importante estar ciente, quando se trabalha com conjuntos de

    exemplos desbalanceados, que desejvel utilizar uma medida dedesempenho diferente da preciso

    Isto deve-se ao fato que a maioria dos sistemas de aprendizado projetada para otimizar a preciso

    Com isso, normalmente os algoritmos apresentam um desempenhoruim se o conjunto de treinamento encontra-se fortementedesbalanceado, pois os classificadores induzidos tendem a seraltamente precisos nos exemplos da classe majoritria, masfreqentemente classificam incorretamente exemplos das classesminoritrias

    Algumas tcnicas foram desenvolvidas para lidar com esse

    problema, tais como a introduo de custos de classificaoincorreta (explicada mais adiante), a remoo de exemplosredundantes ou prejudiciais ou ainda a deteco de exemplos deborda e com rudo

  • 7/21/2019 Classificao OO.pdf

    20/34

    Custos de Erros

    Medir adequadamente o desempenho declassificadores, atravs da taxa de erro (ou preciso)assume um papel importante em AM, uma vez que oobjetivo consiste em construir classificadores com baixa

    taxa de erro em novos exemplos Entretanto, ainda considerando o problema anteriorcontendo duas classes, se o custo de ter falsos positivose falsos negativos no o mesmo, ento outrasmedidas de desempenho devem ser usadas

    Uma alternativa natural, quando cada tipo declassificao incorreta possui um custo diferente oumesmo quando existe prevalncia de classes, consisteem associar um custo para cada tipo de erro

  • 7/21/2019 Classificao OO.pdf

    21/34

    Custos de Erros

    O custo cost(Ci,Cj) um nmero que representauma penalidade aplicada quando o classificadorfaz um erro ao rotular exemplos, cuja classeverdadeira Ci, como pertencentes classe Cj,onde i,j = 1, 2, ..., k e k o nmero de classes

    Assim, cost(Ci,Ci) = 0, uma vez que noconstitui um erro e cost(Ci,Cj) > 0, i j

    Em geral, os indutores assumem quecost(Ci,Cj)=1, ij, caso esses valores no sejamdefinidos explicitamente

  • 7/21/2019 Classificao OO.pdf

    22/34

  • 7/21/2019 Classificao OO.pdf

    23/34

  • 7/21/2019 Classificao OO.pdf

    24/34

  • 7/21/2019 Classificao OO.pdf

    25/34

  • 7/21/2019 Classificao OO.pdf

    26/34

  • 7/21/2019 Classificao OO.pdf

    27/34

  • 7/21/2019 Classificao OO.pdf

    28/34

    Estimao da Acuracia

    2/3 treinamento, 1/3 teste

    Validao cruzada K conjuntos exclusivos e exaustivos

    O algoritmo executado k vezes

    Estratificao Mesmo conjunto de classes em cada conjunto

  • 7/21/2019 Classificao OO.pdf

    29/34

    Bias Indutivo

    Qualquer critrio, implcito ou explicito,utilizado para decidir entre uma hiptese eoutra, sem ser a consistncia com os

    dados. Bias de representao,

    Bias de preferncia.

  • 7/21/2019 Classificao OO.pdf

    30/34

  • 7/21/2019 Classificao OO.pdf

    31/34

  • 7/21/2019 Classificao OO.pdf

    32/34

    Bias de Preferncia

    Como o algoritmo prefere uma hiptesefrente a outra.

    Qualidade da regra

    A estratgia utilizada para gerar novasregras a partir da atual.

  • 7/21/2019 Classificao OO.pdf

    33/34

    Occams Razor

    Entidades no devem ser multiplicadassem necessidade

    Entre todas as hipteses consistentescom a evidencia, a mais simples a maisprovvel de ser verdadeira.

  • 7/21/2019 Classificao OO.pdf

    34/34

    O principio de mnimo comprimentode descrio (MDL)

    Heurstica Comprimento da hiptese

    Comprimento dos dados, o comprimento dos

    dados quando codificado usando a hiptesecomo preditor O comprimento do termo de codificao das

    instancias que so exees