Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering)...
Transcript of Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering)...
![Page 1: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/1.jpg)
Inteligência Artificial
Aprendizagem não supervisionada Agrupamento (Clustering)
Prof. Fabio Augusto FariaMaterial adaptado do Prof. Edirlei Soares de Lima
(PUC-RJ)1o semestre 2015
![Page 2: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/2.jpg)
Tópicos
Formas de Aprendizagem
Tipos de algoritmos de agrupamento (clustering)
Algoritmos de Agrupamento (k-means e k-medoid)
Problemas
Conclusões
![Page 3: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/3.jpg)
Formas de Aprendizagem
• Aprendizagem Supervisionado
• Aprendizagem Não-Supervisionado•
• Aprendizagem Por Reforço
![Page 4: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/4.jpg)
• No aprendizado supervisionado, todas os exemplos de treinamento eram rotulados.
0.51 0.14 0.12 0.04 0.65 0.01 0.08 2
• Estes exemplos são ditos “supervisionados”, pois, contém tanto a entrada (atributos), quanto a saída (classe).
Vetor de Atributos Classe
Introdução
![Page 5: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/5.jpg)
Introdução
• Porém, muitas vezes temos que lidar com exemplos “não–supervisionados”, isto é, exemplos não rotulados.
• Por que?
– Coletar e rotular um grande conjunto de exemplos pode custar muito tempo, esforço, dinheiro...
![Page 6: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/6.jpg)
• Entretanto, podemos utilizar grandes quantidades de dados não rotulados para encontrar padrões existentes nestes dados. E somente depois supervisionar a rotulação dos agrupamentos encontrados.
• Esta abordagem é bastante utilizada em aplicações de mineração de dados (data mining), onde o conteúdo de grandes bases de dados não é conhecido antecipadamente.
Introdução
![Page 7: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/7.jpg)
• O principal interesse do aprendizado não-supervisionado é desvendar a organização dos padrões existentes nos dados através de clusters (agrupamentos) encontrados;
• Com isso, é possível descobrir similaridades e diferenças entre os padrões existentes, assim como derivar conclusões úteis a respeito deles.
Introdução
![Page 8: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/8.jpg)
Extraído de [3].
Introdução
![Page 9: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/9.jpg)
Extraído de [3].
Introdução
![Page 10: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/10.jpg)
• Exemplos de agrupamentos (clusters):
Gato
Cachorro PeixeSapo
LagartoTubarão
Passaro
Ovelha
Existencia de pulmões
Gato
Cachorro
Peixe
Sapo
LagartoTubarão
Passaro
Ovelha
Ambiente onde vivem
Introdução
*Depende do atributo escolhido;
![Page 11: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/11.jpg)
Critério de Similaridade
• A similaridade é difícil de ser definida...
*Depende do critério de similaridade;
![Page 12: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/12.jpg)
Processo de Aprendizado Não-Supervisionado
• As etapas do processo de aprendizagem não supervisionada são:
(1) Seleção de atributos (2) Medida de proximidade(3) Critério de agrupamento(4) Algoritmo de agrupamento (5) Verificação dos resultados(6) Interpretação dos resultados
![Page 13: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/13.jpg)
• (1) Seleção de Atributos:
– Atributos devem ser adequadamente selecionados de forma a codificar a maior quantidade possível de informações relacionada a tarefa de interesse.
– Os atributos devem ter também uma redundância mínima entre eles.
Processo de Aprendizado Não-Supervisionado
![Page 14: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/14.jpg)
• (2) Medida de Proximidade:
– Medida para quantificar quão similar ou dissimilar são dois vetores de atributos.
– É ideal que todos os atributos contribuam de maneira igual no cálculo da medida de proximidade.
• Um atributo não pode ser dominante sobre o outro, ou seja, é importante normalizar os dados.
Processo de Aprendizado Não-Supervisionado
![Page 15: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/15.jpg)
• Diferentes técnicas de normalização[2]
Min-Max Z-Score
)min()max(
)min(
xx
xxn i
i
)(
)(
xstd
xmeanxn i
i
Tanh
1)(
)(001tanh
2
1
xstd
xmeanxn i
i
x
xn i
i
Soma
Processo de Aprendizado Não-Supervisionado
![Page 16: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/16.jpg)
• (3) Critério de Agrupamento:
– Depende da interpretação que o especialista dá ao termo sensível com base no tipo de cluster que são esperados.
– Por exemplo, um cluster compacto de vetores de atributos pode ser sensível de acordo com um critério enquanto outro cluster alongado, pode ser sensível de acordo com outro critério.
Processo de Aprendizado Não-Supervisionado
![Page 17: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/17.jpg)
• (4) Algoritmo de Agrupamento:
– Tendo adotado uma medida de proximidade e um critério de agrupamento devemos escolher um algoritmo de agrupamento que revele a estrutura agrupada do conjunto de dados.
Processo de Aprendizado Não-Supervisionado
![Page 18: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/18.jpg)
• (5) Validação dos Resultados:
– Uma vez obtidos os resultados do algoritmo de agrupamento, devemos verificar se o resultado esta correto.
– Isto geralmente é feito através de testes apropriados.
Processo de Aprendizado Não-Supervisionado
![Page 19: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/19.jpg)
• (6) Interpretação dos Resultados:
– Em geral, os resultados do agrupamento devem ser integrados com outras evidências experimentais e análises para chegar as conclusões corretas.
Processo de Aprendizado Não-Supervisionado
![Page 20: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/20.jpg)
• Diferentes escolhas de atributos, medidas de proximidade, critérios de agrupamento e algoritmos de agrupamento levam a resultados totalmente diferentes.
• Qual resultado é o correto?
Processo de Aprendizado Não-Supervisionado
![Page 21: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/21.jpg)
● o que caracteriza bons e maus processos de agrupamento/clusterização?
● Para validar a saída produzida por um processo de clusterização, geralmente se recorre a critérios de otimalidade, muitas vezes definidos de forma subjetiva [1].
Processo de Aprendizado Não-Supervisionado
![Page 22: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/22.jpg)
• Dado um conjunto de dados X:
X = {x1, x2, . . ., xn}
• Definimos como um m–agrupamento de X, a partição de X em m grupos (clusters) C1, C2, ..., Cm tal que as três condições seguintes sejam satisfeitas:
– Nenhum cluster pode ser vazio (Ci ≠ Ø).
– A união de todos os clusters deve ser igual ao conjunto de dados que gerou os clusters, ou seja, X.
– A interseção de dois clusters deve ser vazio, ou seja, dois cluster não podem conter vetores em comum (Ci ∩ Cj = Ø).
Tarefa de Agrupamento
![Page 23: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/23.jpg)
Agrupamento
• Os vetores contidos em um cluster Ci devem ser mais similares uns aos outros (intra) e menos similares aos vetores presentes nos outros clusters (inter).
• Tipos de Clusters:
Clusters compactos Clusters alongados Clusters esféricos e elipsoidals
![Page 24: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/24.jpg)
Medidas de Proximidade
• Medidas de Dissimilaridade*:– Métrica lp ponderada;
– Métrica Norma l∞ ponderada;
– Métrica l2 ponderada (Mahalanobis);
– Métrica lp especial (Manhattan);
– Distância de Hamming;
• Medidas de Similaridade**:– Produto interno (inner);– Medida de Tanimoto;
* Maior o valor, menor semelhança;** Maior o valor, maior semelhança.
![Page 25: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/25.jpg)
Algoritmos de Agrupamento (Clustering)
• Os algoritmos de agrupamento buscam identificar padrões existentes em conjuntos de dados.
• Os algoritmos de agrupamento podem ser divididos em varias categorias:– Particionais ou Sequenciais;– Hierárquicos;– Baseados na otimização de funções custo;– Outros: Fuzzy, SOM, LVQ...
![Page 26: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/26.jpg)
Extraído de [1]
Algoritmos de Agrupamento (Clustering)
![Page 27: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/27.jpg)
• São algoritmos diretos e rápidos.
• Geralmente, todos os vetores de características são apresentados ao algoritmo uma ou várias vezes.
• O resultado final geralmente depende da ordem de apresentação dos vetores de características.
Algoritmos Particionais
![Page 28: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/28.jpg)
Algoritmos Particionais
• Basic Sequential Algorithmic Scheme (BSAS)
– Todos os vetores são apresentados uma única vez ao algoritmo.
– Número de clusters não é conhecido inicialmente.
– Novos clusters são criados enquanto o algoritmo evolui.
![Page 29: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/29.jpg)
• Parâmetros do BSAS:– d(x, C): métrica de distância entre um vetor de
características x e um cluster C. – Θ: limiar de dissimilaridade.– q: número máximo de clusters.
• Ideia Geral do Algoritmo: – Para um dado vetor de características, designá–lo para
um cluster existente ou criar um novo cluster (depende da distância entre o vetor e os clusters já formados).
Basic Sequential Algorithmic Scheme (BSAS)
![Page 30: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/30.jpg)
• Exemplo 1:
Basic Sequential Algorithmic Scheme (BSAS)
![Page 31: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/31.jpg)
• Exemplo 1:
1a iteração
1
Basic Sequential Algorithmic Scheme (BSAS)
![Page 32: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/32.jpg)
• Exemplo 1:
2a iteração
1
Basic Sequential Algorithmic Scheme (BSAS)
![Page 33: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/33.jpg)
• Exemplo 1:
3a iteração
1
Basic Sequential Algorithmic Scheme (BSAS)
![Page 34: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/34.jpg)
• Exemplo 1:
4a iteração
1 2
d(x4, C1) > Θ
Basic Sequential Algorithmic Scheme (BSAS)
![Page 35: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/35.jpg)
• Exemplo 1:
5a iteração
1 2
Basic Sequential Algorithmic Scheme (BSAS)
![Page 36: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/36.jpg)
Basic Sequential Algorithmic Scheme (BSAS)
• Exemplo 1:
na iteração
12
3
Qual pode ser um desafio nessa abordagem?
![Page 37: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/37.jpg)
• Os algoritmos de agrupamento hierárquico pode ser divididos em 2 subcategorias:
• Aglomerativos:– Produzem uma sequência de agrupamentos com um número
decrescente de clusters a cada passo.– Os agrupamentos produzidos em cada passo resultam da fusão de
dois clusters em um.
• Divisivos:– Atuam na direção oposta, isto é, eles produzem uma sequência de
agrupamentos com um número crescente de clusters a cada passo.
– Os agrupamentos produzidos em cada passo resultam da partição de um único cluster em dois.
Agrupamento Hierárquica
![Page 38: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/38.jpg)
• Exemplo 1 – Aglomerativo:
Agrupamento Hierárquica
![Page 39: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/39.jpg)
• Exemplo 1 – Aglomerativo:
1a iteração
1
Agrupamento Hierárquica
![Page 40: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/40.jpg)
• Exemplo 1 – Aglomerativo:
2a iteração
1 2
Agrupamento Hierárquica
![Page 41: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/41.jpg)
• Exemplo 1 – Aglomerativo:
3a iteração
1 23
Agrupamento Hierárquica
![Page 42: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/42.jpg)
• Exemplo 1 – Aglomerativo:
4a iteração
1 23
4
Agrupamento Hierárquica
![Page 43: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/43.jpg)
• Exemplo 1 – Aglomerativo:
5a iteração
1 23
4
5
Agrupamento Hierárquica
![Page 44: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/44.jpg)
• Exemplo 1 – Aglomerativo:
na iteração
1 23
4
95
7
8
6
Agrupamento Hierárquica
![Page 45: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/45.jpg)
Agrupamento Hierárquico
• Exemplo 2 – Divisivo:
• Processo inverso.
![Page 46: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/46.jpg)
K-Means
• É a técnica mais simples de aprendizagem não- supervisionada.
• Consiste em fixar k centróides (de maneira aleatória), um para cada grupo (clusters).
• Associar cada indivíduo ao seu centróide mais próximo.
• Recalcular os centróides com base nos indivíduos classificados.
![Page 47: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/47.jpg)
(1) Selecione k centróides iniciais.
(2) Forme k clusters associando cada exemplo ao seu centróide mais próximo.
(3) Recalcule a posição dos centróides com base no centro de gravidade do cluster.
(4) Repita os passos 2 e 3 até que os centróides não sejam mais movimentados.
Algoritmo K-Means
![Page 48: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/48.jpg)
• Exemplo:
Algoritmo K-Means
![Page 49: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/49.jpg)
• Exemplo: k = 3
Seleciona-se k centróides iniciais.
Algoritmo K-Means
![Page 50: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/50.jpg)
• Exemplo: k = 3
1a iteração
Algoritmo K-Means
![Page 51: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/51.jpg)
• Exemplo: k = 3
2a iteração
Algoritmo K-Means
![Page 52: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/52.jpg)
• Exemplo: k = 3
3a iteração
Algoritmo K-Means
![Page 53: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/53.jpg)
• Exemplo: k = 3
4a iteração
Algoritmo K-Means
![Page 54: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/54.jpg)
• Exemplo: k = 3
5a iteração
Algoritmo K-Means
![Page 55: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/55.jpg)
• Exemplo: k = 3
na iteração
Algoritmo K-Means
![Page 56: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/56.jpg)
• Exemplo: k = 3
Repite-se os passos anteriores até que os centróides não se movam mais.
Algoritmo K-Means
![Page 57: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/57.jpg)
• Exemplo: k = 3
1a iteração
Algoritmo K-Means
![Page 58: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/58.jpg)
• Exemplo: k = 3
2a iteração
Algoritmo K-Means
![Page 59: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/59.jpg)
Algoritmo K-Means
• Exemplo: k = 3
3a iteração
![Page 60: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/60.jpg)
• O principal problema do K-Means é a dependência de uma boa inicialização.
Problemas do K-Means
![Page 61: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/61.jpg)
• O principal problema do K-Means é a dependência de uma boa inicialização.
Problemas do K-Means
![Page 62: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/62.jpg)
Problemas do K-Means
• O principal problema do K-Means é a dependência de uma boa inicialização.
![Page 63: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/63.jpg)
Critérios de Otimização [2]
• O problema consiste em encontrar os clusters que minimizam/maximizam um dado critério.
• Alguns critérios de otimização:– Soma dos Erros Quadrados.– Critérios de Dispersão
![Page 64: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/64.jpg)
Soma dos Erros Quadrados
• É o mais simples e usado critério de otimização em clustering.
• Seja ni o número de exemplos no cluster Di e seja mi a média desse exemplos
• A soma dos erros quadrados é definida
iDxi
i xn
m1
c
i Dxie
i
mxJ1
2
![Page 65: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/65.jpg)
Soma dos Erros Quadrados
Adequado nesses casos- Separação natural
Não é muito adequado para dadosmais dispersos.Outliers podem afetar bastante os vetores médios m
Je = grande
Je = pequeno
Je = pequeno
![Page 66: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/66.jpg)
Critérios de Dispersão
• Vetor médio do cluster i
• Vetor médio total
• Dispersão do cluster i
• Within-cluster
• Between-cluster
iDxi
i xn
m1
D
xn
1m
iDx
tiii mxmxS ))((
c
iiw SS
1
c
i
tiiiB mmnS
1
)m)(m(
![Page 67: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/67.jpg)
• Relação Within-Between
Caso ideal
Baixo within (Sw)(boa compactação)
Alto between (Sb)Clusters distantesum do outro.
Critérios de Dispersão
![Page 68: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/68.jpg)
Clusters dispersosAlto within
Baixo between (Sb)Baixa distância entreos clusters.
Caso não ideal
Critérios de Dispersão
![Page 69: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/69.jpg)
• Podemos entender melhor os critérios de dispersão analisando o seguinte exemplo:
Critérios de Dispersão
![Page 70: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/70.jpg)
Diferentes clusters para c=2 usando diferentes critérios de otimização
Erro Quadrado Sw Relação Sw/Sb
![Page 71: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/71.jpg)
Algoritmo K-Medoids
• Diferença para o k-means é que o representante do grupo é uma instância do próprio grupo e não mais um centróide (ponto médio);
![Page 72: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/72.jpg)
• descobrir clusters com forma arbitrária;
• identificar clusters de tamanhos variados;
trabalhar com objetos com qualquer número de atributos (dimensões)[4];
Características Desejáveis
![Page 73: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/73.jpg)
• ser escalável para lidar com qualquer quantidade de objetos;
• exigir o mínimo de conhecimento para determinar os parâmetros de entrada;
• encontrar o número adequado de clusters[4].[3]
Características Desejáveis
![Page 74: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/74.jpg)
Considerações Finais
• O aprendizado não-supervisionado ou agrupamento (agrupamento) busca extrair informação relevante de dados não rotulados.
• Existem vários algoritmos agrupamento de dados.
• Diferentes escolhas de atributos, medidas de proximidade, critérios de agrupamento e algoritmos de agrupamento levam a resultados totalmente diferentes.
![Page 75: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/75.jpg)
Considerações Finais
• O problema de clusterização é NP-Completo;
• Para um conjunto com 10 elementos:– com 2 clusters são 511 grupos possíveis;– na clusterização automática serão
115.975[4].
Considerações Finais
![Page 76: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/76.jpg)
Considerações Finais
• Na área de negócios, Clustering pode ajudar a descobrir grupos distintos nas bases de clientes;
• E caracterizar os grupos de clientes baseado nos padrões de compras[4].
Considerações Finais
![Page 77: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/77.jpg)
Considerações Finais
• Etapa de pré-processamento para outros algoritmos, tais como caracterização e classificação, que iriam então operar nos clusters detectados[4].
![Page 78: Inteligência Artificial - Instituto de Computação · 2017-02-22 · Agrupamento (Clustering) Prof. Fabio Augusto Faria Material adaptado do Prof. Edirlei Soares de Lima (PUC-RJ)](https://reader033.fdocuments.in/reader033/viewer/2022042314/5f0265007e708231d4040f99/html5/thumbnails/78.jpg)
Referência
1- Análise de Dados em Bioinformática – Profs. Moscato & Von Zuben DCA/FEEC/Unicamp.2- Aula de Clustering de pixels por Kmeans. A. Falcão & D. Menotti (UNICAMP e UFOP)3- Aula de Análise de Agrupamento. C. A. A. Varella (UFRRJ). 4- Aula de Clustering. S. Tinôco (UFOP).