Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic...

Post on 05-Jan-2016

216 views 0 download

Tags:

Transcript of Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic...

Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and

Feature Selection Strategies

UFU/FACOM - RECONHECIMENTO DE PADRÕES - 2014/1

RESLLEY GABRIEL; RAULCEZAR ALVES; JUAN MANUEL

IntroduçãoObjeto de estudo

Classificação de dados em bases biológicas

• Expressão Gênica

• Microarray

• Base NCI60

• Bioinformática

IntroduçãoProblema

Dificuldade de classificação e geração de conhecimento de alto nível

• Alta dimensionalidade

• Classificadores tipo caixa-preta

• Compreensibilidade e Interpretabilidade

IntroduçãoAbordagem proposta

Ambiente evolucionário híbrido

• Técnicas de Aprendizado de Máquina

• Seleção de Atributos (Weka)

• Algoritmos Genéticos (AGs)

• Regras IF-THEN

Base de dados•NCI60 Cancer Microarray Project

2 – Sistema Nervoso Central

8 - Ovário

4 - Leucemia

5 - Renal

6 - Melanoma

7 - Pulmão

1 - Mama

9 – Células Reprodutivas

3 - Cólon

Base de dados

Descrição do Método

Definição dos parâmetros

genéticos

Módulo de configuração

Descrição do Método

Seleção de atributos no Weka

Geração da população inicial

Evolução do AG

Descrição do Método

Operações genéticas

Geração das regras

Descrição do Método

Validação

Armazenamento e

apresentação dos resultados

Algoritmo Genético

Representação do indivíduo

Algoritmo Genético Função de aptidão

Como avaliar um indivíduo ?

True Positive (tp) Resultado = Sim x Realidade = SimFalse Positive (fp) Resultado = Sim x Realidade = NãoTrue Negative (tn) Resultado = Não x Realidade = NãoFalse Negative (fn) Resultado = Não x Realidade = Sim

Algoritmo Genético

Sensibilidade (Acertos positivos): quando a regra diz uma amostra é de uma dada classe, e o dataset confirma isso.

Especificidade (Acertos negativos): quando a regra diz uma amostra não é de uma dada classe, e o dataset confirma isso.

Aptidão: função de fitness que avalia um dado indivíduo.

Função de aptidão

Seleção de AtributosMétodos empregados:

• Chi-Squared• Information gain• Gain ratio

Seleção de AtributosChi-Squared Uma medição estatística para comparar cada valor observado com um

valor esperado:

Se toma uma amostra aleatória para provar as hipóteses propostas.

Se compara o valor obtido contra o máximo valor aceito na distribuição chi-squared e se avalia a hipótese.

Seleção de AtributosInformation gain

Uma medição estatística que emprega a entropia da informação dos dados:

Neste cenário, se empregam os atributos.

A ideia final é obter informação sobre a entropia total para cada atributo

Seleção de AtributosGain ratio

Pode ser obtido dividindo o IG entre a seguinte expressão:

Que se conhece como o valor intrínseco do calculo.

O ratio permite fazer um bias contra atributos que tem intervalos de valores muito grandes. Em uma arvore aqueles que estão perto da raiz tem menos entropia.

Análise dos resultadosAjuste do Ambiente Evolutivo

• 50 gerações• 200 indivíduos• 50 genes• Chi-squared• Torneio Estocástico de tour 3• Crossover duplo com probabilidade de 100%• Mutação com taxa de 30% • Elitismo

Análise dos resultadosCaracterísticas das Regras geradas

Em média 5 genes por regra

Aptidão média de 75%

Interpretabilidade e precisão

Análise dos resultadosComparação de resultados contra outros algoritmos tradicionais em problemas de classificação:

•PART•J48•Naive Bayes•Random Forest • IBK

Análise dos resultados

Análise dos resultados• Caixa pretaNaive Bayes• Caixa pretaIBK• Árvore com 25 níveis e 13 folhasJ48• 10 ÁrvoresRandom Forest• 10 RegrasPART• 9 Regras, com em média 5 genesHEE

Conclusão O método proposto apresentou resultados que conseguiram balancear acurácia e interpretabilidade, gerando regras e conhecimento de alto nível.

Obrigado!

Dúvidas?