Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic...

Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic Algorithms and

Feature Selection Strategies

UFU/FACOM - RECONHECIMENTO DE PADRÕES - 2014/1

RESLLEY GABRIEL; RAULCEZAR ALVES; JUAN MANUEL

IntroduçãoObjeto de estudo

Classificação de dados em bases biológicas

• Expressão Gênica

• Microarray

• Base NCI60

• Bioinformática

IntroduçãoProblema

Dificuldade de classificação e geração de conhecimento de alto nível

• Alta dimensionalidade

• Classificadores tipo caixa-preta

• Compreensibilidade e Interpretabilidade

IntroduçãoAbordagem proposta

Ambiente evolucionário híbrido

• Técnicas de Aprendizado de Máquina

• Seleção de Atributos (Weka)

• Algoritmos Genéticos (AGs)

• Regras IF-THEN

Base de dados•NCI60 Cancer Microarray Project

2 – Sistema Nervoso Central

8 - Ovário

4 - Leucemia

5 - Renal

6 - Melanoma

7 - Pulmão

1 - Mama

9 – Células Reprodutivas

3 - Cólon

Base de dados

Descrição do Método

Definição dos parâmetros

genéticos

Módulo de configuração

Seleção de atributos no Weka

Geração da população inicial

Evolução do AG

Operações genéticas

Geração das regras

Validação

Armazenamento e

apresentação dos resultados

Algoritmo Genético

Representação do indivíduo

Algoritmo Genético Função de aptidão

Como avaliar um indivíduo ?

True Positive (tp) Resultado = Sim x Realidade = SimFalse Positive (fp) Resultado = Sim x Realidade = NãoTrue Negative (tn) Resultado = Não x Realidade = NãoFalse Negative (fn) Resultado = Não x Realidade = Sim

Algoritmo Genético

Sensibilidade (Acertos positivos): quando a regra diz uma amostra é de uma dada classe, e o dataset confirma isso.

Especificidade (Acertos negativos): quando a regra diz uma amostra não é de uma dada classe, e o dataset confirma isso.

Aptidão: função de fitness que avalia um dado indivíduo.

Função de aptidão

Seleção de AtributosMétodos empregados:

• Chi-Squared• Information gain• Gain ratio

Seleção de AtributosChi-Squared Uma medição estatística para comparar cada valor observado com um

valor esperado:

Se toma uma amostra aleatória para provar as hipóteses propostas.

Se compara o valor obtido contra o máximo valor aceito na distribuição chi-squared e se avalia a hipótese.

Seleção de AtributosInformation gain

Uma medição estatística que emprega a entropia da informação dos dados:

Neste cenário, se empregam os atributos.

A ideia final é obter informação sobre a entropia total para cada atributo

Seleção de AtributosGain ratio

Pode ser obtido dividindo o IG entre a seguinte expressão:

Que se conhece como o valor intrínseco do calculo.

O ratio permite fazer um bias contra atributos que tem intervalos de valores muito grandes. Em uma arvore aqueles que estão perto da raiz tem menos entropia.

Análise dos resultadosAjuste do Ambiente Evolutivo

• 50 gerações• 200 indivíduos• 50 genes• Chi-squared• Torneio Estocástico de tour 3• Crossover duplo com probabilidade de 100%• Mutação com taxa de 30% • Elitismo

Análise dos resultadosCaracterísticas das Regras geradas

Em média 5 genes por regra

Aptidão média de 75%

Interpretabilidade e precisão

Análise dos resultadosComparação de resultados contra outros algoritmos tradicionais em problemas de classificação:

•PART•J48•Naive Bayes•Random Forest • IBK

Análise dos resultados

Análise dos resultados• Caixa pretaNaive Bayes• Caixa pretaIBK• Árvore com 25 níveis e 13 folhasJ48• 10 ÁrvoresRandom Forest• 10 RegrasPART• 9 Regras, com em média 5 genesHEE

Conclusão O método proposto apresentou resultados que conseguiram balancear acurácia e interpretabilidade, gerando regras e conhecimento de alto nível.

Obrigado!

Dúvidas?

Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic...

Documents

Transcript of Building High Level Knowledge from High Dimensionality Biological Dataset (NCI60) Using Genetic...

GENERAL LISTENING STRATEGIES.pptx

Significance of Dimensionality

Goal Setting strategies.pptx

High Dimensionality

BRAIN BASED STRATEGIES.pptx

Dimensionality Reduction with PCA - Over ons · Dimensionality Reduction PCA - Principal Components Analysis PCA Experiment The Dataset Discussion Conclusion. Why dimensionality reduction?

Genomic signatures based on the NCI60 cell lines do not ...

Offensive Strategies.pptx

Nonlinear Dimensionality Reduction

Changing role of women in today’s marketing strategies.pptx

Dimensionality reduction Usman Roshan CS 675. Dimensionality reduction What is dimensionality reduction? –Compress high dimensional data into lower dimensions.

QlikView Dimensionality

08 dimensionality redcution1

Dimensionality Reduction for Stationary Time Series via ...papers.nips.cc/paper/7609-dimensionality-reduction-for-stationary-ti… · Dimensionality Reduction for Stationary Time

Global Promotion Strategies.pptx

Listening Skills and Strategies.pptx

17 Dimensionality Reduction

Dimensionality and dimensionality … and dimensionality reductiondimensionality reduction Nuno Vasconcelos ECE Depp,artment, UCSD. Note ... The curse of dimensionality

VW Polo strategies.pptx*

Dimensionality Reduction - University of Pittsburghpeople.cs.pitt.edu/~iyad/DR.pdf · Dimensionality Reduction Problems of learning in high dimensional spaces: • Curse of dimensionality